//www.drvow.com //www.drvow.com/resWeb/images/common/lp_logo.png 雷峰网 //www.drvow.com 2015 www.drvow.com All rights reserved. zh_cn Sun, 16 Feb 2025 06:12:42 +0800 社科院团队发布安全科技价值报告:AI与安全科技是未来两大通用技术 //www.drvow.com/category/DataSecurity /p2rGDm77ERo1xeT3.html

如今,距离ChatGPT正式发布,在全球范围内引爆大模型的热潮已经有一年的时间。

在这一年里,国内外各大厂商都在紧锣密鼓地“生产”大模型,国内的“百模大战”也终将会在科技发展史上留下浓墨重彩的一笔。

而进入2024年,新一轮“战争”的号角已经吹响。

IDC预测,到2024年全球将涌现出超过5亿个新应用,而这相当于过去40年间出现的应用数总和。

“卷”基座大模型即将成为过去,“卷”应用才是潮流。

但与此同时,数字化安全风险也已经进入快迭代、高智能、全覆盖的新格局。尤其是AI大模型安全风险凸显,引起了全球范围内的热切关切。

基于此,提高社会对于安全科技的认知、重视与参与,迫在眉睫。

1月18日,中国社会科学院大学数字中国研究院联合蚂蚁集团对外发布了《数字时代安全科技价值报告》。

报告认为,安全科技将成为社会的公共品,与人工智能并列为未来的两项通用技术。在AI大模型及深度数字化趋势下,安全科技的价值在放大。

据雷峰网了解,研究团队基于2023年全球数字社会的安全风险新形势和科技创新内在的逻辑,将安全技术作为独立技术集群进行分析,不仅定义了“安全科技”的内涵特征,同时对安全科技在推动智能终端、车联网、AI大模型等领域的价值进行了研究。

中国社会科学院大学数字中国研究院执行院长吕鹏在发布报告时表示,数字化安全风险进入了快迭代、高智能、全覆盖的新格局。尤其是2022年底AI大模型横空出世,大大推进了深度智能时代的到来,对安全局面的影响也是颠覆性的。

在这样的大背景下,提高社会对于安全科技的认知、重视与参与,非常有必要,这也是报告的核心议题。

中国社会科学院大学数字中国研究院执行院长 吕鹏

根据研究团队的定义,“安全科技”包括一系列旨在保护信息、网络和计算机系统免受未经授权的访问、攻击和威胁的工具、技术、系统,是一种更为通用、包含多个领域、多种前沿技术的复杂系统性技术集群。

报告指出,在过去相当长的时间里,“网络安全”即安全科技,入侵检测、防火墙、反病毒等安全技术是主流。然而,随着数字化智能化的深入,新的技术不断衍生了新的安全风险,安全技术一直更新升级,逐渐走向无边界。本质上,安全科技是一种伴生技术。它永远面向新科技、新发展,比如面向人工智能,就会有智能安全,面向生物科技,就会有生物安全。

根据技术成熟性与前沿性,研究团队从应用价值角度将安全科技分为了四大板块——基础安全、业务安全、AI安全、未来安全。

其中,基础安全包含传统的系统安全、网络安全、数据安全等,是数字世界企业与机构必须具备的底层安全能力。

业务安全是企业或机构根据自身业务需求,针对可能遇到的营销作弊、交易欺诈等业务风险而研发的一系列技术。

伴随AI大模型的诞生,AI安全成为主流的安全关切,逐渐形成了一个新的安全技术研究领域,含数据去毒、模型安全、AIGC检测技术等。

在AI之外,面向未来的安全形势,也有一些规模较小的前沿技术出现,如量子信息安全技术。

近年来,我国安全科技市场处于爆发式增长阶段,涌现出了一大批新的安全技术,包括了区块链、隐私计算、对抗智能、量子计算等前沿技术。

根据2023年7月IPRdaily发布的《安全科技专利报告》显示,我国是全球安全科技发明专利最大布局国家,专利申请数为第二名美国的2.23倍;安全科技专利申请数前十名的申请主体中,中国企业占7席,蚂蚁集团、华为公司、腾讯集团位居前三。

“‘技术是把双刃剑’,在它以更快的速度变得越发强大时,我们不可能扔掉利刃,放弃科技;惟有以另一种科技打造足够安全的刀鞘。”吕鹏表示,“未来有且只有两项通用技术,一是人工智能,二是安全科技。”

研究团队认为,人工智能是未来生产力的发动机,将在各行各业数字化的基础上进一步实现智能化;安全科技作为方向盘,始终将各种新兴科技控制在向善的道路上,两者融合创新与发展。

报告同时提出,未来,安全科技将成为社会的“公共品”,是技术向善的关键保障,尽早对它进行投入,将有助于掌握新兴技术发展与产业迭代的主动权。

那么,如何让安全科技成为公共品?

报告认为,政企合作是核心驱动力。通过更多的公共力量投入,在合规激励、商业保险、行业标准、安全思维更新等方面加强生态联动,构建更好的安全科技实力和制度,采用数字化转型的“慢起飞模型”,新的安全技术将得到更好的发展,个人与社会为数字化转型所付出的代价也将更小。

此外,在安全科技的价值上,报告引用了蚂蚁集团副总裁、大安全事业群总裁赵闻飙的判断,总结其具有“压舱石”与“助燃剂”的两重价值。

“压舱石”指的是守住技术的安全底线,防御外部风险隐患,让技术“难作恶”,支撑数字社会稳步运行。

例如,蚂蚁集团与荣耀等手机厂商打造的终端安全技术方案,从手机设备芯片层入手,从源头保护用户免受黑灰产活动侵害,已守护1.2亿余台智能手机;中铁建设物资公司通过与蚁盾共建的产业风控平台,实时防范大宗贸易上下游协作风险,并且把客商准入提效50%。 

“助燃剂”体现在提高技术的安全上限,降低技术运行的成本,让产业焕发新机,让更多人受益。

比如,通过可信隐私计算技术,让数据安全流转成为可能,充分激活数据要素价值;通过大模型安全一体化方案“蚁天鉴”,帮助大模型在上线前找出弱点和漏洞,在上线后防范外部恶意攻击。

如今,安全已成为AI产业发展的核心要素。一旦大模型在细分领域大规模应用,那么“蚁天鉴”就可能成为基石。


]]>
风控与安全 //www.drvow.com/category/DataSecurity /p2rGDm77ERo1xeT3.html#comments Thu, 18 Jan 2024 15:09:00 +0800
用 AIGC 打败 AIGC,守护数字化发展 //www.drvow.com/category/DataSecurity /hJScY3vGNTZBgWVa.html 作者丨王悦

编辑丨董子博

从线下交易转为线上交易的第一步,便是开户的身份认证。

在菲律宾开通一个货币账户,到底有多难?来自中国的技术专家亲眼目睹了当地居民,乘坐一个多小时的公交车,来到一个网点,提交一堆纸质资料,资料被集中送到一个审核点,再去等待漫长的纯人工审核。

正常情况下,从递交资料到账户开通,整个流程耗时约一个星期,如果用户量翻倍,人工审核团队的人数也要随之翻倍。

受到人力、门店数量等限制,开户认证过程效率低、体验差,通过率自然非常低,能真正坚持下来完成开通的用户只有发起者的3%。

某机构一天只能服务几十个用户,等待做身份认证的用户排到了一年以后。


身份认证专家却“难证清白”

蚂蚁集团安全科技平台ZOLOZ的李哲认为,只有用数字技术做身份认证,才能够摆脱人力瓶颈,实现高效便捷的开户体验,为数字化发展提速。

于是他背起行囊,雄心勃勃,准备用自己多年的技术能力奔赴菲律宾,开启线上身份认证的“拓荒”之旅。

而现实却给了这位中国身份认证专家“当头一棒”。李哲刚到菲律宾,就被机场海关拦入了“小黑屋”。

原因是,当地刚刚发生一起案件,在逃嫌疑人也叫“LI ZHE”。

签证信息有限,当地海关没法确认此“李哲”非彼“LI ZHE”,李哲不得不亲自跑去当地移民局,填写书面材料,当面说明自己不是那个“LI ZHE”,又去当地法院,说明自己没有犯罪。

两个机构开具的证明要在以后的每次出入境时都随身携带,否则还是会发生与之前一样的遭遇。而讽刺的是,李哲前脚刚刚走出移民局大门,一群黄牛就蜂拥而至,追着问:

“假证要不要办?”

李哲万万没想到,工作还没展开,就陷入自身难“证”的境地,人肉体验了一把当地的身份认证状况,他也迅速意识到了问题的严峻。

李哲为证明自己不是某某某而填写的材料


拨开“假证”迷雾,认清“你是你”

019年9月的某天,马尼拉的雷克托大街上,突然一阵喧哗嘈杂。

接到线报称,此处有不法分子正在制造虚假的身份证和驾驶证,菲律宾的警方突击了当地的一个假证制造窝点。仅在这一次行动中,工作人员就查获了342张假驾驶证。

在当地,制造一本假驾驶证,不法分子就可以获得1000比索,而一本伪造的菲律宾护照,就能在黑市上买到3500比索。

猖獗的黑产背后,其有恃无恐之处在于当时并不发达的假证识别技术,这直接锻造了五花八门的造假手段:对电脑或手机屏幕翻拍并不属于自己的证件、拍摄打印复印件、遮挡篡改、高仿定制等。

除了造假手段多样化之外,近30种证件都被认可为官方证件,却没有统一官方库可以进行信息比对,也给身份认证带来巨大的障碍。

ZOLOZ想在一带一路沿线国家和地区,实现的是和中国一样,用户全自助、无人工干预完成金融机构的“在线身份认证”,机器远程识别“你是谁”,以及准确判断“你是你”,你不是那个被别人冒充的你。

当时品类繁多的菲律宾证件在版面设计与制证工艺上存在很大差异,主体色彩、底纹样式、防伪膜、照片、格式与顺序、字体样式等要素各有特点,需要用到OCR技术识别每一个证件上面的文字信息,从而完成“让机器识别你是谁”这第一个小目标。

然而,更大的挑战在于“如何准确判断你是你”,以应对身份篡改、冒用,带来的欺诈、薅羊毛、洗钱风险。

魔高一尺,道高一丈。在图像识别方面,ZOLOZ算法团队敏锐地发现了翻拍证件图片通常带有明显的摩尔纹图案或者反光特征,并且在一些拍摄角度下,还能观察到图片中屏幕边框,窗口边框等,采用细粒度识别技术,他们提出了多尺度的证件翻拍检测算法。

ZOLOZ团队还发现了“用打印件冒充真实证件”的检测突破口,由于两者材质不同,当有平行光射入时,两者具有不同的漫反射率。因此,他们尝试改变产品交互,在拍摄证件的瞬间开启闪光灯,通过“闪光帧”来甄别打印件;此外,通过遮挡区域边缘的梯度异常(阴影)和遮挡区域内部的纹理差异信息,来判断证件是否被遮挡篡改……

结合这些发现,ZOLOZ探索了一套全球证件防伪算法体系,在2019年,ZOLOZ成为全球首家通过HKMA(香港金融管理局)警署假证测试的企业。截至目前,相关技术已经产出相关专利100余篇。


保护数据隐私,让模型左右手互搏

找到了假证识别的突破口,ZOLOZ团队又马上要迎接一个新的命题。

训练数据是模型训练、迭代的基础,但可用于模型训练的攻击样本数据非常少。而团队基于数据隐私保护的准则,对真实数据的调用也极度克制。不同于其他的AI领域,在安全攻防方向上,预训练阶段“不用真实数据训练"的理念似乎已在团队内约定俗成。

“如果真要收集足够的真实样本再去升级模型,可能还没升级完,就已经被‘打趴下了’。我们要在隐私保护的原则下,找到其他的突破口。” ZOLOZ 身份安全算法负责人李哲告诉雷峰网。

于是,ZOLOZ自研了两套快速生成数据的方法,即物理生成和数字生成。

所谓物理生成,就是模仿黑产的攻击套路、变换各种姿势,自己制作可供模型训练的假证样本。

疫情期间的一个春节,ZOLOZ 团队的一名工作人员,和他的家人刚刚吃完年夜饭,围坐在餐桌前。不同于其他人家,新年夜一起包饺子,他们手里剪刀飞舞,把一张张网上下载的图片打印下来按照一定规格剪好,再遮挡在证件上,并且拍照留档。

起初,一张一张剪起来很慢,一家人一个小时只能剪出几十张。熟练后,一小时能剪出一百多张。

“人家过年都是剪窗花,咱们家过年是剪图片。”家人打趣说道。

除夕夜发动全家老小做人工智能训练师的“壮举”,是为了给 ZOLOZ 制作“篡改遮盖攻击”的负样本,就像金庸小说里的左右手互搏,巨大的3000份攻击样本数量为模型练就了一身硬朗结实的腱子肉,提升照片遮挡攻击测试的防御力。

而此举也帮助ZOLOZ在春节后的一次竞标中,超越竞争对手,赢得了菲律宾当时最大银行的订单。

数字生成,显然比物理生成更“高级”。ZOLOZ用起了AIGC 批量生成攻击数据样本,利用生成的样本同样可以实现训练模型的结果,效率更高,效果更逼真。为了增加其生成数据的多样性,ZOLOZ尝试去更换手机型号,摄像头类型,屏幕边框和拍摄环境等。

此外,借助 Stable Diffusion 模型,能对凭证图像进行更丰富的拍屏风格渲染,也能对现有拍屏模型进行摩尔纹对抗攻击等。

AIGC 还帮助 ZOLOZ 扩展现有的数据特征空间,预测到更多新型证件材质伪造类型,引入更多对抗攻击样本来提高模型的防御能力。

这种方式被称为“冷启动”,在数据隐私保护的前提下,让模型在小样本学习中迅速上手。

李哲介绍,如今ZOLOZ的通用防伪能力已经支持全球十多个国家的上百种证件类型,其中大部分证件的防伪标识可以被识别,并具备防御高仿假证的能力,处于业界领先的水平。而冷启动时运用的数据几乎均由AIGC生成,极大地减少了真实数据的使用量。而在线上发现的少量真实的攻击数据成为了模型的测试集,为模型进行调优。


用AIGC打败AIGC

AIGC 给ZOLOZ带来了巨大的助力,而 ZOLOZ 也清楚地看到,虽然目前大多数黑产攻击仍然采用物理生成的方式,但随着AIGC技术的普及,黑产也可能利用AIGC生成更高仿真性和迷惑性的假证,ZOLOZ务必从现在就开始打磨辨别AIGC的能力。

ZOLOZ给出的应对方案是利用自己的AIGC算法,生成大量看起来逼真的证件图片数据,用来训练另一个可以识别AIGC的模型。

李哲对AI科技评论表示道:“为了让训练的模型更加鲁棒,在这个过程中还可以加入对抗技术,根据识别模型在生成数据上的表现,反过来指导优化AIGC算法,再生成更多可以绕过识别模型的样本,从而不断增强识别模型的泛化能力。”

以左手搏右手,以魔法打败魔法——用AIGC技术,来打败未来AIGC的风险,ZOLOZ 的这条路径,未来很可能变成安全认证的一大趋势。

在李哲看来,每道单一的防线也许都不能做到100%完美防御,因此,ZOLOZ不仅仅做图像识别,还结合综合数据决策来实现全链路的纵深防御策略,从注册环节、到开户环节、再到支付验证环节,让多道防线相互补充,形成相对坚实、可信的身份认证体系。

如今,菲律宾电子钱包Gcash的开户时间,从原来的一周降到只需要在家操作3分钟。Gcash的注册用户数超过6600万,每1.7个菲律宾人就有一位在使用。

疫情期间,ZOLOZ 提供的可信身份认证帮助孟加拉国500万个家庭实现远程开户,当地政府通过本地最大的移动支付平台BKash,向失去收入来源的家庭发放援助金。也因此,ZOLOZ 在2021年获得了IDC金融科技真实价值奖。BKash CEO卡迈勒·奎德表示:“ZOLOZ 帮助BKash实现了跳跃式发展,在疫情期间,e-KYC成了我们的救星。”

截止目前,ZOLOZ已经为一带一路沿线国家和地区的上百家合作伙伴提供在线身份认证、风控决策等技术支持,覆盖银行、保险、证券、电信、公众服务等领域。

本文作者:王悦,微信s1060788086。雷峰网将持续关注AIGC、大模型、数字人等领域,欢迎添加作者微信,交流行业信息。


]]>
风控与安全 //www.drvow.com/category/DataSecurity /hJScY3vGNTZBgWVa.html#comments Thu, 20 Jul 2023 16:25:00 +0800
反诈骗,一场用户心智「对抗赛」 //www.drvow.com/category/DataSecurity /Jsyyx7Z16Rnbn6pk.html

反诈骗不仅要拦骗子,而且还要拦用户,你敢相信?

近期,蚂蚁集团发布《2022反诈治理半年报告》,雷峰网与蚂蚁集团大安全技术部总裁李俊奎进行了一次交流,让人重新审视反诈骗这件事情。

大部分人的认知里,反诈骗是一场与骗子之间较量。比如,支付宝用户的账户被骗子骗取盗刷,支付宝要建立更坚固的防护墙,让骗子无机可乘。

但实际上,反诈骗早已不再那般简单。近几年,以电信网络诈骗为代表的新型网络犯罪愈演愈烈,每一宗成功的电信诈骗,都是一场堪称完美的话剧。

骗子是演员,用户是观众。“演员”通过抓住“观众”心理,节奏明快、内容严密,让人深陷“剧情”之中,不能自拔。

这就给反诈骗提出了新的“考题”,除建立防护墙,将骗子挡在门外,还要在受骗用户的主动支付交易过程中,采用心智对抗技术,将用户拉出剧情的心智影响,助其主动识别骗局。

而这,也是蚂蚁集团的智能风控技术正在做的事之一:用主动交互式风控技术,帮助受骗用户在“自愿支付”的过程中,认识到自己其实被骗了。


打磨对抗用户心智的“工具”

蚂蚁集团大安全技术部总裁李俊奎2008年加入支付宝,有超过10年的风控安全经验,他谈起了蚂蚁从2018到2020年,打磨对抗用户心智工具的整个心路历程。

一开始,蚂蚁主要通过智能弹窗等方式劝阻用户,比如,在用户交易时,系统识别对方账户为风险账户,系统会通过智能弹窗唤醒用户的安全心智。

不过,也总有些人会忽视这种提醒,甚至在某些骗局下,认为这是平台在“拦截财路”。

就像过来人传授经验一样,出发点是好的,但说话技巧生硬,效果可能就不明显,甚至适得其反。

而后,蚂蚁想出了新办法,直接给用户打电话。2019年,蚂蚁对外推出了智能化的“叫醒热线”,AI机器人会主动致电用户,通过更有情感的语音交互,让用户识别骗局,从欺诈的剧情当中走出。

而近期,蚂蚁针对不方便接电话的用户,新开发欺诈风险机器人“安全保镖”,通过图文互动进行风险揭示。针对杀猪盘、刷单等用户沉迷性强的骗局,新增了真实意图识别能力,目前识别率已提升30%,欺诈案件量进一步下降10%。

从智能弹窗、智能叫醒热线到欺诈风险机器人“安全保镖”,整套的交互式风控技术打磨过程中,李俊奎向雷峰网感叹到,与“用户斗智斗勇”并不简单。

蚂蚁交互式风控技术,有一部分内容是与浙江大学心理学研究团队合作研发,是心理学与机器学习相互碰撞打磨而成。“心理学的内容非常专业,哪怕写的文案顺序、文字颜色、语气稍微不一样,最后的结果也不一样。比如,我们把警察叔叔这样一个卡通图表放到我们的提示文案上,效果就比之前好很多,”李俊奎说到。

此外在设计智能叫醒热线时,在语音部分,到底用男生语音,还是女生语音,都是要考虑的点。

这在某种程度来说,反诈骗已经不仅是一个“技术活”,也是一个“技巧活”,通过跨界融合产生新的技术,这也是蚂蚁很重要的创新手段。

到目前,蚂蚁交互式风控技术取得了一些成绩。据蚂蚁发布的《2022年反诈治理半年报》显示,蚂蚁AI叫醒热线电话日均交互4.3万人次,平均语音沟通时长大于90s,AI的理解和沟通能力越来越好,用户也更愿意与AI交流更长时间。此外,今年上半年,蚂蚁牵头的交互式欺诈侦测技术能力标准成功在国际电联(ITU)立项。


练就识别诈骗的“火眼金睛”

不过,要唤醒用户心智,帮助用户主动识别骗局,还有一个前提:反诈方首先得自己练就一双“火眼晶睛”,能够通过特征分析,快速识别诈骗团伙。

特别是在当下,随着诈骗团伙作案手段越来越变化多端,整个电信诈骗过程变得更加隐性,这给风险识别也带来了难度。

就拿支付端来说,以前,黑灰产团伙往往通过直接盗用账户、盗用银行卡进行资金转移,而现在大多时候进行资金交易是用户本人,表面上与正常交易并无差异。因此,反诈技术需要有更加复杂、多维的隐性特征挖掘、分析能力,才可能更准确地识别明显风险。

所以,在强化交互式风控技术之前,蚂蚁在2016到2018年这个阶段重点强化了风险识别技术。

比如结合图计算技术+异常挖掘/特征传播技术,搭建了行业首个全图风控体系。支付宝平台上每天发生的上亿笔交易,全图风控技术会通过构建复杂风险特征网络,进行涉黑概率的计算,快速找出与单个嫌疑人相关联的黑产团伙,并进行提前预警与拦截,让用户的支付真正做到安全无感。

据《2022反诈治理半年报告》显示,蚂蚁智能风控系统已经可以做到秒级追溯团伙诈骗行为。


多方联合打造更坚固的“防护墙”

从全图风控技术再到交互式风控技术,总体来说,蚂蚁的智能风控系统在2020年之前大概经历了两个阶段,第一阶段形成了全图风控技术体系,第二阶段形成了交互式主动风控技术体系。

如今,蚂蚁正在进入第三阶段,通过加强端边云协同风控技术、多方安全风控技术,来加强生态联防。

合作是风控行业发展的趋势。“就算用户在支付宝平台里面没有风险交易,但是其它地方有很多风险,那用户的资金安全还是会受到影响”李俊奎说道。因此,各家支付机构、银行、互联网企业等加强互动,才能打造更坚固的反诈骗“防护墙”。

据《2022反诈治理半年报告》显示,蚂蚁通过多方风控技术,联合了4.2万家商户共同对抗诈骗等灰黑产业链,日均提供涉诈及销赃相关风险预警线索2.1万条,协助有关部门向受害用户返还被骗资金362.25万元。

不过,联防联控中的数据保护、数据安全也是挑战,李俊奎坦言。

为加强全链路风控和保护用户隐私,今年蚂蚁研发用于手机等终端设备的“可信隐私沙盒”,并已与荣耀、vivo等企业合作,将可信隐私沙盒DTXB部署到了1000万手机设备,日均识别7000+风险交易。此外,通过这项端边云协同风控技术,把一些风险模型直接注入到终端,在终端里进行风险分析,用户隐私信息就不需要再上传到云,这也对用户隐私进行了保护。

在李俊奎看来:“安全融入到基础设施,成为内置的安全,不管是从效果上面,以及作用上面,效果会更大。”

至今,蚂蚁已构建了以I(交互式主动风控)、M(多方安全风控)、A(博弈对抗智能)、G(全图风控)、E(端边云协同风控)为核心的智能风控技术体系IMAGE。

当用户打开支付宝,按下支付按钮,蚂蚁整个风控技术体系就会逐一发挥作用,对行为、交易环境、关联关系等多个维度进行风险检测扫描,尽最大程度保护交易支付安全,且整个过程不超过0.1秒。此外,蚂蚁基于IMAGE打造的支付宝智能风险感知与响应联合反诈系统,入选了2022世界人工智能大会最高奖项 SAIL 奖 TOP30 榜单。

这是一个令人欣喜的成绩,不过,反诈骗之路永无止境,未来还有许多方面值得继续探索,比如进一步实现隐私保护之下的全链路智能,比如让机器更能读懂人、加强自我进化,又比如更快应对风险变化......

【封面图片来源:网站名豆瓣,所有者:电影剧照】

]]>
风控与安全 //www.drvow.com/category/DataSecurity /Jsyyx7Z16Rnbn6pk.html#comments Mon, 15 Aug 2022 11:01:00 +0800
500人对战500万黑产从业者,数美唐会军为什么选择这条路? //www.drvow.com/category/DataSecurity /GWQcjUCC7KpnI61h.html

作者 | 李扬霞

编辑 | 林觉民

唐会军是一个怎么样的人呢?

雷峰网总结了他一个习惯,他做事前总是先建立认知框架,然后基于框架逻辑做事。

唐会军

1

百度和360塑造认知

2015年夏天,PC黄金时代的末期,唐会军离开了奇虎360。

唐会军创办了一家公司,但却并没有想好要去做什么,只知道要去做跟数据有关系的事,于是给公司取名数美科技,所谓“发现数据之美,挖掘数据价值。”

唐会军之所以选择数据这个方向,主要是因为自己已经在数据领域耕耘10余年。

2005年,南开计算机系毕业生唐会军选择加入百度。此时同校的前辈以及同学大多选择看起来很风光、待遇相对较高的外企和运营商单位工作。少有人选互联网公司,而当时互联网公司不像如今这般火爆。

唐会军反其道而行之,来到位于中关村盈科大厦的腾讯和百度面试,两家公司一个楼上一个楼下,他很快就面试完了,不出意料的两家Offer都拿到了。

“这么多互联网公司都快速招人,说明行业发展趋势好,正处于蓬勃上升期。反观外企,看似风光,全国就招几个人,虽然稀缺,但从行业角度来看反而是个坏事,因为没有行业需求。”

因此唐会军决定去未来的新兴行业——互联网公司“看看”。

在腾讯和百度之间,唐会军选择后者,“百度做搜索引擎,很有技术难度,这在我们做技术的人眼里很有吸引力。”

唐会军在百度里成长的很快,2005年进入百度,只用了不到三年时间,就从t3做到了t8,担任百度系统技术委员会主席。

百度的主业是搜索引擎,因为搜索引擎要读取大量的索引文件,而这些索引文件都存在硬盘上,由于硬盘的访问技术有限,公司需要买大量的服务器。唐会军在搭大数据架构的时候,就想“有没有可能不用硬盘”。

那时候都已经电子时代了,但是还有两个机械的部件在电脑里,一个就是硬盘是机械的,还有一个是风扇还是机械的,唐会军认为,未来硬盘也应该电子化。所以当时就跟一些硬件厂商合作,把硬盘换掉写一些算法,把 U 盘芯片攒在一起,做成一个硬盘存储,从而极大地提升访问效率,降低成本。

唐会军入职百度的时候,正是百度技术氛围最浓厚的那几年。当时“百度在技术方面称第一,没人敢称第二。”

因为百度做搜索引擎本身就是一个对于技术要求很高的事情,它是一个技术驱动型的业务,对于技术有挑战的事情也很多。而百度对于技术人才也给予了很多成长和机会,不论是晋升还是职级体系都很健全,而且技术人员待遇也不错。

在百度,唐会军赢得了口碑,也赢得了数美发展的诸多资源,诸如今天数美的总裁刘铨林,当年是唐会军在百度的前辈和老同事,再比如当时唐会军的老领导齐玉杰,在与张鹤一起创办多盟并成功套现后回到百度风投做合伙人,百度风投也在之后成为唐会军的投资人之一,另外两家由百度老人创办的VC,王梦秋的清流资本和汤和松的襄禾资本都是数美的参与者。

与唐会军有过两次阴差阳错的腾讯也是数美的投资人,腾讯甚至有自己的反欺诈业务,其实不仅仅是腾讯,数美的投资人360和齐向东的奇安信都有反欺诈实验室,但与数美并不冲突,数美拿单子,更多靠产品和服务,股东是谁并不是加减分项。

话说唐会军个人第二次错失腾讯,很大程度上是因为工作地点,当时腾讯想做云业务,找到了唐会军,唐会军与腾讯联合创始人、CTO张志东相谈甚欢,张志东也是技术出身,对云对数据对底层操作系统等技术产品都有很强的认知,唐会军很是佩服,唯一的问题是当时腾讯云需要北京深圳两地工作,唐会军刚刚在北京安家。

周鸿祎

而唐会军加入360的契机源自于一顿饭局。

2010年,周鸿祎约唐会军在四惠园区万龙洲海鲜餐厅吃了顿饭,饭局开始后,老周一个人讲了三个小时,最后问了唐会军三个问题:你为什么出来?你带多少人?你想干什么?

在得到回复后,老周发动了自己的必杀技,他将唐会军的三个回答与自己正在做的事一一对应,讲述了关于360搜索的构想。

唐会军听到了老周的构想,回去开始认真研究360的的商业模式。

最后唐会军得出了以下两个结论:

第一,360安全浏览器的流量增长得很快,360完全有可能成为第二个百度,变成一个流量分发型的模式,这样的商业模式赚钱不难;

第二,360同时具备百度和腾讯的优势,腾讯拥有最强的客户端QQ,而360彼时拥有360安全卫士这个超级终端。唐会军觉得前途无量。

后来唐会军就近选择入职了360,在 360 任高级技术总监(P11),他从零开始搭建大数据、云平台、人工智能等团队,全方面推动搜索、安全、广告等大数据产品高速发展。

还有一个阴差阳错,当初唐会军来360的时候,360还没有做搜索引擎的业务。

说起360搜索,在当年也是很传奇的一件事情,360搜索团队只用4个月时间就建立了完整索引检索和机器学习系统。在2012年8月份,上线第五天,便迅速拿下国内接近10%搜索市场份额,超越搜狗,成为国内第二大搜索引擎。

关于360做搜索的故事,雷峰网从数位其他参与者处也得到过细节还原:

当时,360搜索的背后是百度凤巢的首席架构师张栋和他的小伙伴们,因为竞业的原因建立自己的公司给360提供顾问服务,不过,这种外包式的合作不免磕磕碰碰,于是董毅(现任360公司技术副总裁,负责搜索事业部)就跟老周说:“我们也能做。”

周鸿祎不太看好董毅能做好搜索,但是齐向东很支持。

齐向东

后来,360搜索业务变成张栋和董毅两条线并行发展,董毅团队虽然没有做搜索的经验,但他们知道用户需求,在产品上很有一套,很快把360搜索做出声势来。董毅团队怎么做360搜索的,故事多多,可以关注左林右狸频道的知识星球。

很快,周鸿祎想的是把张栋的团队收回去,但是张栋不愿意没谈拢,于是张栋宿华等人把源代码和技术文档转交给360,换取了一票360股票。

周鸿祎敢放张栋离开,前台有董毅这样的大将是重要因素,而后台有唐会军这样的战神也是加分项。唐会军也为360搜索做了很多技术架构的工作,齐向东曾在年会上说:“没有会军,360搜索不可能这么快做起来。”

也许,正是因为有这么多人才,360搜索引擎才能那么快推出。

在360期间,唐会军做了很多0到1的事情,锻炼了一部分业务思路,这对他后期创业更好的把握业务起着很大的作用。

360当时也发展迅速,在PC端和阿里巴巴、腾讯都在同一梯队。360安全卫士渗透率极高,聚集了巨大的流量,将流量卖给广告主,获取广告收入。

但是随着PC流量逐渐见顶,其在移动互联网端也未占据优势地位,360也迎来了发展的瓶颈期。

时间来到2015年,像当年从百度离职时的原因一样,想做一些创新的事情,所以毫不意外的从360离职了。

唐会军告诉雷峰网:“大家都鼓励做1到10的事情,但是我比较愿意做0到1的事情。”唐会军总想做一些创新的事情,不想一成不变。

至于是什么,唐会军并不知道,唐会军只是知道自己想干点不一样的新事情。

他没有着急往热门赛道上扑,而是花了整整四个月时间去考察市场,感受赛道,因为他深刻地认识到“选择”这件事的重要性。

唐会军的原话是:“我觉得(选方向)这一步很重要,方向错了越努力越错。”

不过,这种“摸索”也不是盲目的,他给自己总结了一些框架性逻辑。

这里我们归纳为“一个中心,两个基本点,四个原则”,简称“唐氏创业法则”。

一个中心指的是“创新”,这个好理解,如果不是想创新,他就不会出来创业了。

两个基本点指的是“一定要做ToB,一定要和云服务进行结合”。

“做To B”是唐会军创业的初衷,因为之前经历过百度和360这两家ToC的超级流量公司,他深刻认识到,未来很长时间里,创业做ToC公司的机会都不大。

“要和云服务结合”是因为他发现,传统ToB服务更多是定制化、私有化的,难以形成较大的规模。提供这种服务的公司比较容易存活,但很难把业务做大。要想解决这个问题,他觉得最好的方向就是ToB业务与云服务结合。

四个核心原则指的是:第一,时间不能太早,太早的话就成了先烈;第二,时间不能太晚,太晚就没机会了;第三,要做擅长的事,只有做擅长的事情才能做成;第四,自己要做“技术驱动的事情,运营驱动的事情”。

2

与补贴时代共生的反欺诈赛道

在建立这个认知框架后,唐会军也和服饰、保险、地产行业朋友聊过多次,始终缺一个契机——推出一款杀手级服务的契机。

一个二手电商同学的求助电话,一下点亮了唐会军的方向。

“有没有兴趣对付黑产,我们公司总共20个人都用来对付黑产了,没有人做业务研发了。”

唐会军接到电话一下子兴趣来了,“这个好像挺有意思,有业务需求”,他似乎等待的就是这个契机。

首先,反黑产是一项ToB服务,而且是必须基于云的ToB服务。

其次,这是唐会军团队能做的,他们出身于360,自然知道怎么与黑产攻防,符合"擅长的事"这个基本原则,而这个事情本身是靠技术驱动的,是能通过运营建立壁垒的,这更是他们从百度开始就在做的事情,也就是说这事唐会军团队不仅能做,而且能做得比别人好,做得有门槛。

最后,在时机上,反欺诈这事不早也不晚,刚刚好。

说早是,2015年,正处于PC互联网末期移动互联网的初期,新的网络生态带来了新的安全问题。反欺诈这个赛道是刚刚开启,唐会军和数美成为反欺诈赛道的开创者。

那么,为什么此时没有其他公司做反欺诈这件事呢?譬如安全公司。

彼时的安全公司,关注的更多是偏传统的网络安全,比如黑客攻击、漏洞等,关注业务安全几乎没有。

在唐会军看来,这是一个机会。

反欺诈和安全看起来很相似,却不甚相同。

唐会军说:“早期我们也把反欺诈作为一个业务安全的赛道,但是现在认为就是一个反欺诈赛道,因为这个赛道解决的业务问题层面不一样,产品形式也很少有安全公司,反欺诈业务的产品形态更多靠的是AI 和大数据驱动,而不是安全研发能力。”

说不晚是,2015年,整个中国互联网从进入了补贴时代,互联网公司卷入大规模烧钱补贴圈地跑马,迅速获得用户增长。这样的恶性竞争正是孕育黑产的极好土壤,也给了数美这些反黑产孤勇者的机会。

滴滴和快的烧钱大战,双方各自日均烧钱过亿,一度出现打车比公交便宜的局面,于是网约车司机开始通过虚拟订单薅羊毛,一个10分钟车程的单子,利用外挂平台愣是能开出500公里的数据,这种刷单牟取暴利的例子层出不穷。

还有人利用平台系统漏洞,进行欺诈,比如“虚拟乘客”在导航App上下单“坐车”后拒不付款,诱骗网约车公司垫付。

在电商平台方面,当时黑产正盛,“苹果手机九块九包邮”、“购买商品返现补贴”、“新用户首单享受满减优惠”、“推荐新用户随机领取奖励金”等,也刺激黑产从业者加入这场补贴狂欢。

比如,开始有人投机取巧,利用虚拟号码批量注册虚假新用户,虚假刷单骗取电商平台的优惠券和推广奖励金。

唐会军清楚的记得,当时某款新App的用户中,90%的账号都黑产控制的假账号,他一开始都不敢相信,以为自己的验证模型有问题,直到反复验证,确实了假账号的事实。

补贴时代下防盗刷、防羊毛党,防欺诈成为了刚需。在唐会军看来,新的问题和需求必然带来新的行业。

所以就框定了O2O这个行业,也确定了数美科技最初的方向。

2015年年底,当时还不到10人的的数美科技,在一次小会上确定了未来的业务方向——为O2O公司提供在线业务风控。唐会军把大家所有人召集在一起,这其中就有CTO梁堃、首席架构师陈建等人,而其他核心团队成员均来自于BAT、360和小米等知名互联网公司。

唐会军说:“方向来啦。”

问:“做什么业务?”

答:“在线业务风控!”

一锤定音。

自此,唐会军带着数美就正式踏入了在线业务风控的SaaS服务领域。

七年后的今天,国内的黑产从业者超过500万人,数美科技的员工数也到达500人,它已经成为了国内少有的数字风控领域的准独角兽公司。

有意思的是,当初,唐会军刚刚入局风控赛道后,就有一件“好事”上门。2016年初,银行的一个200万的私有化项目找到了唐会军,但是却被其拒绝了。

银行的人问:“为什么有钱不赚呢?”

唐会军则说:“这个项目和我们未来的目标不符合。”

200万不是小订单,但是于刚成立的数美科技来说,私有化的定制项目并不是最好的生存土壤。银行本质是金融系统,对产品、策略要求非常严格,产品上线周期平均两年以上,不利于公司快速成长。

唐会军对雷峰网说:“虽然舍不得,但是只要想清楚最终想得到什么目标,就能割舍眼前的利益了。”

要挑客户,前提是自己本身硬,同时得等风起,谋定而后动。

3

准召率和内容风控

对于ToB企业来说,客户从哪里来,是个大问题。

与许多技术出身的创始人一样,唐会军选择让专业的人做专业的事——让分管销售的合伙人负责客户事宜。

但销售和业务“各管各的”并不是件好事,尤其对于创业初期的小公司而言。懂销售,更要懂业务,才能真正打动客户。

“于是我就自己去学,我一个工程师出身,我去学销售、见客户。我们现在的销售负责人、几个核心骨干,都是从小销售成长起来的,我带着他们一起做单。”

当时在 SaaS 领域创业的人也没有那么多,没有现成的销售方法论可以直接拿来用,只有自己边学习边带人。

在这过程中唐会军深入了解了行业和客户。O2O的本质,其实就是企业的数字化转型过程。许多业务从线下迁移到线上。在这过程中,企业的拉新、留存、交易的环节中存在非常多的风险。

最终在O2O这个领域,以账号风险防范为利器,数美蹚出了一条适合自己的 SaaS 销售路子。

伴随账号风险问题出现,内容风险也成为阻碍互联网企业健康发展的一把利剑。

前面讲了许多O2O客户都有账号风险,到头来损失的都是公司的利益,所以反欺诈的需求也就随之而起。

2015年后大热的直播行业则不仅有账号风险,还会有内容风险。

唐会军吃透了这点,每次都能打准客户的痛点,同时数美也确定了以云服务的形式,给直播公司提供在线的风控产品和服务。

此时正好赶上了“千播大战”,有数据显示:“中国市场上 90% 以上的直播平台都是数美的客户。”

薅羊毛的事情在电商平台实属常见,在直播行业也并不少见。举例来说,这些所谓的“淘金者”也就是黑产通过交易账号、礼物而获得分成,与主播串通,获得免费礼物,进而空手套白狼,薅平台羊毛。举例来说:直播平台经常存在色情,暴恐、广告、水帖等垃圾内容,同时也存在营销活动作弊、刷人气、刷榜、刷等级、撞库登录等异常行为。数美科技则通过AI识别风险要素,提高作业门槛,进而保护正常的运营秩序。

但是ToB的生意跟ToC的打法始终不相同,不是免费就能解决的。

在当年那个反欺诈的蓝海市场,很多客户都是用抢的。2015年的时候,唐会军和同事去跑一家音乐直播客户,俩人一下飞机就直奔该客户广州基地,没想到扑了个空,并没有见到关键决策人,俩人下午就败兴而归回到了深圳。刚回到深圳没多久,那边就来电话了,告诉关键决策人回来了,他们立马就从深圳动身回广州,当场就很顺利的就把产品价格定下来了。

其实当时跟数美一同竞争的还有同盾等其他平台等,其中有家对手当时还承诺终身免费的诱人条件。但直播平台负责人说:“主要是效果和质量。”

2019年,在线教育增长趋势很明显,数美想到业务风控在在线教育领域可能也有机会,就尝试敲了一下,后来,在线教育的独角兽基本也都成为数美的客户。江湖甚至有个传说,以至于VC要调查在线教育行业,都会来敲数美的门。

“双减之前,在线教育耳熟能详的公司都是数美的客户。现在的几家职业教育平台依旧是我们的客户,”唐会军表示。数美主要按调用量进行收费,用户量大需求多那么调用量多收费也就相应增长。

数美赢得客户,靠的不是多厉害的销售话术,靠的是产品和服务。“不管是账号风险还是内容风险,这直接关系到客户的业务,所以客户自然而然感兴趣。对付黑灰产的效果如何一试便知。”

风控业务是一个效果型产品,对于效果型产品,客户在选型决策的过程中最关注的一点就是准召率,第一:召回率;第二,准确率,也就是账号经过模型识别后的准确率和召回率,指标越好产品的竞争力就会越强。但是两个指标是相斥的,很难同步提升。这是一个比较有挑战的事情。

4

未来新十年的机会

如果说2015年是数美科技定大方向的一个节点,那么2020年就是数美科技“里程碑式”转折点。

2020年之前,数美科技只服务互联网企业。

这很容易理解,对于数美科技来说,创业初期资源有限,只能集中力量办大事,在互联网领域做深做强。这是数美的打法策略。

而2020年之后,数美主要投入到一些相对传统行业,如银行、新零售等数字化转型需求较大的行业。这是因为互联网行业里市场份额已经基本满了;而在银行新零售等行业里,数字化转型较慢,因此有机会把业务拓展到这些行业。

以银行为代表的传统行业数字化转型需求所带来的风险正在不断增加,唐会军看准了这点。数美主要切入的场景是银行数字化业务中的流程和交易风险问题,比如手机银行就是一个典型的场景。

早在2015年数美就拿下了第一个金融行业标杆客户中信银行,再后来建行、人保、银联、平安、招行等也都成了他们家客户。

除了金融,数美另一个在做的大赛道就是新零售。越来越热的新零售,也有极大的数字化需求和反黑产需求。

唐会军说:“新零售要构建自己的私域流量,风控这一步必不可少。”

从线下转到线上的模式跟当年的O2O多少有些相似。用户从注册到登录、搜索、下单、支付、物流、收货,每一个流程环节都是风控点。

到目前为止,数美也做了叮咚买菜、得物这两家的生意。

未来,唐会军要拿下的另一个市场就是出海市场。

出海是一个大市场,中国企业整个出海整进入一个加速攀升期,从最早的服装、玩具、家电等传统外贸资源型出海,到以互联网为阵地的工具、游戏、电商、内容社交出海,历经中国互联网拼搏厮杀的创业者,开始在海外进行一场新的流量、规模、模式争夺战。

海外业务面临的形式更加严峻,合规风险、内容风险等等,类似数美这样的数字风控公司的机会就来了。

这里可以举个数美科技与客户一起成长的例子。

2019年,荔枝找到了数美科技,荔枝主要关注的是音频内容风险控制,账号风险则为辅。

这年7月,荔枝推出了全球化声音社交产品TIYA,短短一年时间内在海外做到2000万下载,之后2020年便在新加坡设立了全球总部,开始对海外业务做本地化建设和运营。

荔枝上市时,也是将出海作为荔枝新的增长点。

与之相对应的,数美也伴随着荔枝一起进行了出海尝试,并且成功。

目前数美已实现全球化AI SaaS多集群部署,覆盖中国大陆、日本、欧洲、北美、中东、东南亚等十余个国家和地区,日均⻛控服务达30亿次以上。

“现在的创业时代,已经比老一辈那时候的创业环境好太多,就出海环境来说,现在不论是意识形态还是国家品牌,在海外都已经逐渐形成了我们自己的优势,”唐会军如是说。

5

数美的自我升级

数美不仅要跟着中国传统的企业数字化升级,还要跟着中国的互联网公司一起征战中国市场,与此同时,数美也开始对自己本身进行升级。

唐会军坦言,数美今天能做在数字风控领域赢得领导性地位,第一个原因是因为自己和团队非常笃定在线业务风控领域的发展前景;第二个是因为效果型产品对技术能力要求很高,有些企业没有这个能力,别的企业可能一周模型迭代一次,数美是以天为维度迭代更新,所以效果比较明显。

行业在革新,逆水行舟,不进则退。

但唐会军也坦言在数美遇到的诸多挑战和问题中,其中最重要的问题就是组织能力的挑战。

唐会军说:“一个技术型创业者的三个阶段首先要懂技术,其次要懂业务和产品,最后一个阶段是组织管理。”

唐会军将数美的组织建设分为两个阶段,第一阶段做的最多的事情,就是做流程和业务体系化的梳理。

唐会军认为,其实每个公司都差不多,就三套体系:

第一个是怎么卖产品,就是 GTM(Go To Marketing)体系,也就是市场开拓体系;

第二个是客户成功体系(CSM),把产品卖给客户以后怎么服务客户,持续给客户创造价值;

第三个是产品研发体系(IPD),产品研发体系构建指的就是,怎么在你的体系里面确保哪些是高优先级、哪些是低优先级、哪些是通用需求、哪些是不通用需求、哪些是定制化的、哪些对于产品未来有竞争力等等。

唐会军的理想就是将市场开拓、客户成功、产品研发这三套流程体系落地走到平台工具,然后通过最后的数据化,形成一个闭环。这也是数美为什么能比对手反应更加快,更加敏捷的原因所在。

为保证体系和流程的推行,唐会军把自己的很多时间放在内部的组织管理提升上,特别在对内的沟通上。

数美现在每个月必须开一次全员的沟通会,让所有人都知道公司在做什么、老板在想什么?让同事及时了解公司大方向。每周,专门安排跟同事的一对一沟通,此外,还有部门级的沟通,下属提问题、需要的支持和帮助、沟通,每一两个月要做一次。

唐会军也在学习硅谷公司的做法 ,诸如定期给员工发公开信。唐会军认为,任何沟通层面的冲突和矛盾都源于底层认知不一致。拉齐认知,才能避免管理繁琐,效率低下。

唐会军深谙身先士卒以身作则的管理要义,从2015年至今,七年时间几乎从未间断,几乎每天都是公司最晚走的人,他还每天坚持跑五公里,七年时间从未间断,为此还建立了一个二十五六人的“新时代进步青年跑步群”,带头一起“卷”。

在他看来,倡导运动,是为了让人有体力,有心力,有活力,有毅力。唐会军喜欢运动,他常说:“创业是脑力、智力、体力、心力的较量。”

“作为创始人,你永远不要低估自己在组织建设方面的作用,同时也不要高估自己在业务方面的作用。”

这句话是李想说的,唐会军深以为然。

作为一个技术出身的创始人,唐会军有轻微的社恐,但在另一面,他更是一个喜欢折腾,持续进步的创新者。


以下是雷峰网与唐会军对谈的采访实录,其中有关于个人经验、创业、给年轻人的建议等几个方面的想法,雷峰网在不改变原意的情况下做了精选和整理:

雷峰网:技术型创业者出来做公司,往往面临做管理还是做技术的选择,一些技术型创业者选择退居做CTO。对此,你怎么看待?

唐会军:SAAS是一个全新的模式,大家都在想市场应该怎么去开拓?怎么去创新?所以肯定要试错,不会就去学,任何一个创业公司踩坑也是必不可少的,最后看你爬坑的速度。

就拿销售来说,传统的销售里面可能一般年龄大相对来讲经验多一些,但是思维也会固话一些,对新东西的接收程度低,得抛弃自己过去东西。反而,在创新领域里面,经验会变成包袱,经验变得不是优势。SaaS 创业领域也是,所以自己趟出一条路,所以数美我也是自己带销售。

雷峰网:什么时候意识到懂业务要比懂技术要重要?

唐会军:从理论来讲核心就两件事,一个是目标,一个是路径。任何目标的上一层,就是更高级的目标。技术相对你的业务来讲,技术一定是路径。客户不会因为你的技术有全球NO.1,就选择你,一定是因为你的产品能解决他的问题而付费的。所以,要把路径和目标分开,这是在我创业的时候悟出来的。

雷峰网:创业最重要的是什么?有没有自己的一套管理方法论?

唐会军:方向很重要,找不到方向是极其痛苦的一件事情。在创立公司之前,我花了大概四个月的时间,去琢磨到底干嘛。方向这个事情是非常致命的,一旦选错了,越努力越错的越远,所以我宁愿花几个月时间去想方向,而不是在公司里面方向想好再出来,我要去看、去聊、去感受,去选方向。

创业是一个人缺点的放大器。这时候就要快速地学习和成长,一方面是去跟业界大佬去聊天,另一方面去看书琢磨,从而提升认知。

雷峰网:管理上有什么心得啊?

唐会军:在管理上,共识很重要。因为只有认知上有共识,才有共同的行动,带来共同的目标和结果。所以我定了一个V4 原则:个人视野、公司视野、团队视野、行业视野。每个人做一项工作之前,都要站在更高一级的视野看问题,这样才能形成公司,员工才能理解我们到底在干嘛。

雷峰网:那遇到分歧咋形成共识?

唐会军:数美里“遇到问题的四个阶段”是:列举问题;分析原因;解决方案;行动拿结果。

在实际工作中大家观察就会发现,大量人是第一阶段一列问题,就马上问要怎么办?他们就没有第二阶段,也就是“分析原因”。所以很多人很多事情做不成,就是因为忽略了中间阶段,问题没搞明白,就说这个问题怎么办?你不同意他的观点,他就认为你在否定他。

我们沟通就按照这四个阶段原则讲,你的问题是什么,他能说出来,然后问你的原因是什么,他就会说好像不是很清楚。你们的沟通慢慢就一致了,认知一致以后就高效了。

雷峰网:为什么要给自己规定每天读最少10页书,一个月读一本书的计划?

唐会军:“我很认同张一鸣的一句话——作为CEO,你对很多事情的认知,就代表你这个事情的竞争力。"创业是一个人的缺点的放大器,所以要快速的学习和成长。做决策,你没有认知的支撑,混沌的做决策,失败概率比较高。

雷峰网:关于读书,你有什么方法论可以分享?

唐会军:我总结了一个“读书四部曲”公式:

第一:链接认知,看的东西要和原有的认知产生链接;

第二:改变认知,对认知产生了修正或者冲突;

第三:改变动作,知行合一;

第四:改变结果,以上都做到就会产生结果;

雷峰网:你觉得自己是一个什么样的人?

唐会军:我是典型的理工男,相对比较内敛。我比较喜欢折腾新东西,做一些有挑战的事情。

]]>
风控与安全 //www.drvow.com/category/DataSecurity /GWQcjUCC7KpnI61h.html#comments Thu, 12 May 2022 14:47:00 +0800
美国电信巨头T-Mobile承认被黑客组织Lapsus$袭击,源代码被窃取 //www.drvow.com/category/DataSecurity /0WZQ8ftn2y4Ayecp.html

4月24日消息,据外媒报道,近日,美国电信巨头T-Mobile承认前几周被黑客组织Lapsus$袭击。T-Mobile的源代码被窃取。

源代码是一个公司的命脉。源代码一旦被窃取,系统中用户的账号密码、个人信息等客户敏感隐私信息,甚至连客户的支付信息也会遭到窃取,进而造成银行卡被盗刷等事故,同时也给系统平台造成巨大的经济损失。不过,T-Mobile表示,黑客组织Lapsus$在此次袭击中,并没有窃取到客户或政府信息。

Lapsus$ 在获得了一些 T-Mobile 员工的凭证后,使用该公司的内部工具(例如 T-Mobile 的客户管理系统 Atlas)来执行 SIM 卡交换攻击。据报道,用于初始访问的VPN凭据是从一个使用俄语的暗网黑市获得。

SIM 卡交换攻击从本质上讲,就是更换被攻击目标的手机号码,将系统中存储的手机号码变更为攻击者拥有的手机和设备。这样,攻击者就可以获得攻击目标所收到的短信验证码或电话等信息。

据报道,此次对T-Mobile的攻击中,黑客组织Lapsus$还试图破解FBI和美国国防部的T-Mobile账户,但最终未成功,因为上述两家机构的账户需要额外的验证措施。

T-Mobile是世界最大的电信公司之一,拥有超过1亿的用户,也是海外华人常用的运营商。近几年,T-Mobile遭遇了数起黑客攻击。其中,T-Mobile在2021年8月份遭遇攻击相对严重,此次黑客攻击使得超过4700万T-Mobile客户的个人信息被泄露。T-Mobile为客户提供了补偿,赠送为期2年的免费身份保护服务,并建议所有客户更改他们的PIN。

有研究者猜测,黑客组织Lapsus$来自南美,多半成员都是未成年。前不久,该组织的16岁少年头目被捕,在其被捕前几天,Lapsus$曾表示会休息一阵。早前,Lapsus$还攻击过英伟达、微软、三星等大公司。Lapsus$因其在3月的多起高调行动而获得广泛关注,Lapsus$曾在网上就是否攻击T-Mobile发表过投票。Lapsus$还曾高调宣布招募受雇于科技巨头和互联网服务提供商的企业内部人员,包括微软、苹果、IBM等公司。

雷峰网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /0WZQ8ftn2y4Ayecp.html#comments Mon, 25 Apr 2022 08:07:00 +0800
安全形势日益严峻,谁是挡在前面的勇敢者 | 2021 年度AI最佳成长榜 //www.drvow.com/category/DataSecurity /E03LTmX5IEgumxyg.html

2021年,网络安全形势仍然严峻,不久前爆发的史诗级安全漏洞log4j2再次为行业敲响警钟,包括政府、金融、自动驾驶在内的各个领域,都越来越需要更精尖和定制化的服务。

危局之下,一批具有代表性的网络安全企业站了出来,他们无一例外都已经在网络安全领域深耕多年,不仅具备超强的技术防御能力,更拥有多年的实践落地经验,不仅是优秀的执行者,更是专业的垂类解决方案提出者。

作为最早一批关注网络安全的科技媒体之一,雷锋网于今年6月重磅启动了第四届「最佳成长榜」评选计划。  

据雷锋网统计数据显示,本次雷锋网「最佳成长榜」最终被提名和申请榜单的公司达671家,涵盖雷锋网此前预设的当下最受关注的13大领域,5个最佳维度。经过专家评审团长达一个月的集中评审,最终评选出65家在产品能力、技术能力、商用价值,以及未来成长潜力最具代表性的企业。  

这些企业中,既有锐意进取的创新巨头,也有在各个领域中脱颖而出的超新星。新生时代,它们作为当下所在赛道走在最前沿的佼佼者,将共同开启新发展浪潮。  

日前,“2021最佳成长榜”评选结果正式出炉。深信服、中国电子云、火绒安全、绿盟科技、360新一代实网攻防靶场平台  分别获得了“最佳金融零信任安全解决方案奖 ”、“最佳政务安全解决方案奖”、“最佳医疗安全解决方案奖”、“最佳驾驶安全解决方案奖”、“最佳综合靶场前沿科技奖”。

最佳金融零信任安全解决方案奖:深信服

深信服科技股份有限公司是专注于企业级网络安全、云计算、IT基础设施及物联网的产品和服务供应商,拥有深信服智安全、信服云和深信服新IT三大业务品牌,致力于承载各行业用户数字化转型的基石性工作。

目前,深信服员工规模逾7000名,在全球有50余个分支机构,公司先后被评为国家级高新技术企业、下一代互联网信息安全技术国家地方联合工程实验室等。目前,超过10万家用户正在使用深信服的产品。根据IDC数据,深信服VPN、全网行为管理连续超过10年保持中国市场占有率第一,下一代防火墙、桌面云、超融合、EDR也均为中国市占率前三。

作为国内较早探索零信任应用的企业之一,深信服推出了零信任安全架构及相应的解决方案和产品,基于“以身份为中心,可信访问、智能权限、极简运维”的理念,通过新一代网络隐身、动态自适应认证、全周期终端环境检测、动态业务准入、动态访问控制、多源信任评估等核心能力,帮助用户实现流量身份化、权限智能化、访问控制动态化、运维管理极简化的新一代网络安全架构转型。

目前,深信服零信任已在众多金融机构落地应用。除此之外,在运营商、互联网企业、大型制造业、教育、政府科研、企事业单位等各行各业均完成落地实施,其轻量级、易落地、可持续成长的优势将被越来越多的用户认可。

最佳政务安全解决方案奖:中国电子云

中国电子云是由中国电子信息产业集团有限公司(简称中国电子)推出,专为政府、金融机构、公共服务机构、央企国企打造的新一代数字经济基础设施。

中国电子云专注于云安全和数据安全,采用PKS自主技术体系,实现政企客户数字化转型中的“本质安全”和“过程安全”,夯实政企数字底座。基于自研可信云技术架构和业界领先的分布式云原生云操作系统,实现计算资源的弹性智能调度,并率先提出PKS原生云的概念,以系统论为指导,基于PKS体系,构建新性能、新体验、新安全的云。

依托中国电子丰富的网信产业资源和全栈技术能力,中国电子云以自主技术为核心,内聚云原生、大数据、人工智能、区块链等全面能力,具有全栈安全、一云多芯、多云融合、多域专有等优势,是业界首个可同时提供具备信创能力的公有云服务和专属云产品的云计算厂商,提供涵盖IaaS、PaaS、政府应用、企业应用在内的体系化云数产品、全栈技术及全方位运营服务。

中国电子云是国内首个以“增强”级安全能力通过中央网信办云计算服务安全评估的全国产化软硬件技术和支持PKS架构的云计算平台。

作为中国电子网信技术系统性输出平台,中国电子云服务行业客户超300家,在政府、公共服务及央企国企、金融等领域,提供各类云数服务,支持其信息化、数字化、信创化的快速转型。

目前,中国电子云已成功承建国家管网集团专属云平台、长江云通集团云平台、天津西青数字底座、江西南昌数字新建、四川遂宁政务云、四川德阳智慧城市等项目,在多个城市落地“云数”底座,助力数字中国建设!同时,中国电子云相关产品、技术、解决方案还服务支撑金融、能源、制造等行业数字化转型和升级。

最佳医疗安全解决方案奖:火绒安全

火绒安全成立于2011年9月,专注于终端安全领域,旗下全线产品搭载自主研发的新一代反病毒引擎,持续为用户提供专业的产品和专注的服务。

2012年,火绒安全推出免费个人产品“火绒安全软件”,以“专业、干净、轻巧”的特点收获良好的用户口碑;经过6年的技术打磨和经验沉淀后,于2018年正式推出面向企业用户的“火绒终端安全管理系统”,已服务上万家企业用户,在政企、医疗、制造、金融、IT互联网、能源、交通等多个领域得到广泛应用。

同时,火绒安全不仅将反病毒引擎等具备自主知识产权的技术用于自身产品,还向诸多安全领域的伙伴进行技术赋能,运用产品与技术输出的方式,拓宽和延伸终端防护领域。

未来,火绒安全将始终秉持“情报驱动安全”的理念,用扎实的产品技术,服务用户,赋能伙伴,维护更广大用户的终端安全。

最佳驾驶安全解决方案奖:绿盟科技

绿盟科技紧跟国家/行业政策,立足车联网行业及客户网络安全需求,在车联网(SDK+SOC)安全监测与防护系统中,通过SDK+SOC端到端的车云安全联动机制,形成对车载终端安全检测、监测、防护、响应、恢复等车联网安全态势一体化监管与运营机制,服务于整车、运营等企业车辆及平台的安全监测与预警,支撑国家车联网行业安全监管,为我国车联网信息安全领域核心技术突破贡献力量。

绿盟车联网(SDK+SOC)安全监测与防护系统具有全面的态势感知能力、完善的安全分析和数据整合能力、基于特征和自进化AI检测分析双向攻防引擎分析能力、一键处置和设备联动能力,可完成标准化安全态势监管与预警响应,针对高隐蔽、复杂多样的车联网攻击,可实现多维度、多层次的动态攻击检测与威胁分析。

近年来,绿盟科技多次参与车联网安全检测评估顶层建设和实践工作和国家级、行业级车联网安全攻防比赛,荣获第三届车联网信息安全比赛第一名、世界智能汽车信息安全挑战赛优胜奖等,以实战化安全检测及攻防对抗比赛促进安全检测与防护技术攻关研究,逐步形成车联网安全合规审计、攻防检测、车载端安全防护、安全监测运营等四大类车联网安全能力。

同时,绿盟科技通过提供车联网安全合规体系咨询、风险分析、安全设计开发、安全测试验证、事件监测响应、数据安全等系统化的安全服务能力,聚焦安全风险管理的强化、安全设计及防护措施的提升、完备监测响应机制的建立和安全更新手段的完善,综合提升车联网企业网络安全保障能力,保障车联网系统安全可持续应用和发展。

最佳综合靶场前沿科技奖:360新一代实网攻防靶场平台

360实网攻防靶场汇聚了360十多年积累的网络安全大数据、威胁情报、实战攻防专家团队以及虚拟化技术等能力,不仅能为政企用户提供一站式的网络攻防演练服务支撑,还将帮助客户开展安全能力体系实战检验,可谓锤炼数字时代安全新体系的重要“刚需”。

作为新一代的网络安全基础设施,360实网攻防靶场用于在真实网络环境中进行实战攻防演练。360实网攻防靶场包含人员训练平台、攻防竞赛平台、高仿真虚拟靶场、新一代实网攻防平台四大实战对抗演练基础设施。

其中,人员训练平台主要提供信息安全训练课程,将攻防知识从零散、琐碎中提炼出来。攻防竞赛平台用于考察人员的基础知识,通过丰富的理论赛、解题赛、攻防竞赛、红蓝对抗等多种竞赛形式实现。    

高仿真虚拟靶场则重点验证作战效能和防御能力。通过克隆技术构造接近真实场景的孪生试验环境,在接近实战条件下的网络环境中试炼,在逼真试验环境中引入典型的用户操作行为,通过采集并回放数据还原真实应用场景。    

此外,极为重要的对抗基础设施就是“360新一代实网攻防平台”,这是目前功能全面、应用成熟的实网攻防平台。该平台依托360EB量级的安全大数据,在安全攻防专家团队的能力加持下,依靠丰富的技术经验研发而成。

雷峰网雷峰网雷峰网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /E03LTmX5IEgumxyg.html#comments Fri, 17 Dec 2021 10:47:00 +0800
阿里云、百度云「被约谈」背后:无数反诈恶战正式打响 //www.drvow.com/category/DataSecurity /DJSSONDglFfaldru.html

近日,这一则“阿里云、百度云被约谈”的消息引发外界关注:

“工信部网络安全管理局、公安部刑事侦查局联合约谈阿里云、百度云两家企业相关负责人,通报了近期两家企业在防范治理电信网络诈骗工作中存在的接入涉诈网站数量居高不下等问题。


要求两家企业切实履行网络与信息安全主体责任,严格落实《网络安全法》等法律法规要求,对相关问题限期予以整改;拒不整改或整改不到位的,将依法依规从严惩处。


两家企业表示将认真落实监管要求,进一步加强网站接入、域名注册、信息服务等管理,切实防范化解电信网络诈骗风险。”

多位业内人士向雷峰网强调,在近年来国家大力打击电信网络诈骗的背景下,这一则通报来得并不意外。某种程度上,它可以看作是反诈行动的“多管齐下”。

已经进行多时的“断卡行动”,是从手机卡、银行卡入手,联手电信运营商、银行共同防范。这次通报则意味着,要从另一个源头加强对诈骗团伙的打击,云服务商作为网络服务的主要提供者,更加正式、明确地加入到这场反诈行动的行列中来。

约谈所为何意?

通报中所指的“接入涉诈网站”,其实是指诈骗网站的服务采用了阿里云或百度云的服务,通过这些云厂商注册域名和解析DNS。

“通报的意思是强调云厂商要主动防范查处,严格执行网络审查,不能为非法行为提供服务。”

资深IT咨询顾问阿昆(化名)告诉雷峰网,这一点和对支付机构的要求很像:如果商户涉嫌非法行为,支付机构没有及时冻结商户和相关交易就会遭到处罚;支付机构需对商户的真实性、合法性严格审核,履行商户审核的主体责任。

据雷峰网了解,这类云服务提供方承担审查责任的要求,并非如今才有:曾有厂商因向违法者提供云主机,而受到监管层的行政处罚。

英方软件的黄亮也表示,这些非法网站为了逃避审查,披着羊皮卖狗肉,想着法子躲过监管,这需要监管部门、企业及社会共同监督。

“问题在于云厂商是否要下决心斩断这些收入来源,以及是否能够通过严格的审核机制完全斩断,这都是非常大的挑战。”

一场云厂商与诈骗团伙的无尽对决

“首先要让云厂商检查自己接入的诈骗网站数量,包括为其提供服务和域名解析。其次就是确保接入的不是诈骗网站,进行排查。”

长年从事信息安全行业的老吴(化名)向雷峰网分析称,诈骗网站通常存在如下特征:

仿域名、仿页面;大量流量集中在获取登录请求和注册请求;含客户数据的信息流量明显大。

相对应的防范措施包括但不限于:

  • 相似域名解析过滤,需要有受保护域名字典;

  • 页面快照对比,需要有受保护域名快照留存;

  • 异常流量分析,这一点对资源消耗较大,还要防范过度防御导致正常流量网站无法服务。

他强调,除了技术防御手段,还有人工核查、解封流程、风控闭环审查等一系列措施。

或许你也意识到,这对云厂商来说,不大轻松。

“如果考虑到这两个顶流云平台的用户接入量,这就像12306一样,工作量会陡增。”老吴说。

阿昆也指出,不光是要耗费资源审查、担心误伤正常的商户,后续的核实和处置也很复杂;原来其实只要注意服务的稳定性就行,这些额外的工作,成本可想而知。

在防范逐步加强的过程中,还有可能出现“道高一尺魔高一丈”的情况,演变成云厂商和诈骗分子一场无止境的攻防演练。

“(诈骗分子)为了不被发现,就要做伪装,那云服务厂商又要去识别伪装。”

他推测,后续黑产或许会转向境外的公有云服务,如AWS等。境外云厂商的服务获取更为便捷,追查起来会更加麻烦。

至于为什么是阿里云和百度云先接受约谈,阿昆认为,应该是监测到的恶意流量中,这两家厂商的流量相对靠前。

老吴表示,其他厂商也可能遇到类似情况,不排除后续会约谈,但基于监管部门的投诉或一些监控数据维度,先与这两家进行沟通。

雷峰网也从某头部云厂商处了解到,他们暂时未收到类似的监管通知,尚未发起更进一步、更加严厉的自查。

尽管防范打击诈骗不易,但云厂商未来必然会更频繁、深入地加入到反诈行动当中来。多位受访者都强调,这并非纯粹的技术攻防问题,而是企业的社会责任问题。

“大型云厂商肯定是要设法加强防范;如果是小型云厂商,可能就要关门大吉了。”老吴表示。

若踩红线,重则千万罚款

从法律角度来说,云厂商也要承担相应的义务。

君悦律师事务所的顾问孙明向雷峰网强调,这些义务包括基本的实名认证、网络安全、数据安全和个人信息保护等。

早些年间,电信运营商逐步落实电话及手机号码实名制后,电信诈骗等非法活动得到一定的扼制。在不少业内人士看来,当下加强对于云服务厂商的监管,与当年异曲同工。

“之前对于云服务厂商监管相对松散,未来云服务厂商在对客户提供基础的域名申请、云服务租用等服务时,应当履行更加严格的、合理审慎的注意义务,防止其用户使用云服务从事违法犯罪活动。

如果云服务厂商故意或重大过失导致其云服务用于违法犯罪活动的,就会违反网络安全法和数据安全法的相关规定,情节严重的可能要承担刑事责任。”

随着今年《数据安全法》《个人信息保护法》等一系列法案的出台,这些义务以及可能出现的处罚都将更加明确。

通报中提到的《网络安全法》,就列明了相关惩罚:

从事危害网络安全的活动,或者提供专门用于从事危害网络安全活动的程序、工具,或者为他人从事危害网络安全的活动提供技术支持、广告推广、支付结算等帮助,尚不构成犯罪的,由公安机关没收违法所得,处五日以下拘留,可以并处五万元以上五十万元以下罚款;情节较重的,处五日以上十五日以下拘留,可以并处十万元以上一百万元以下罚款。


受到治安管理处罚的人员,五年内不得从事网络安全管理和网络运营关键岗位的工作;受到刑事处罚的人员,终身不得从事网络安全管理和网络运营关键岗位的工作。

而一旦违反《数据安全法》将受到最高一千万的重罚:

(据数据安全法)第四十五条 ……违反国家核心数据管理制度,危害国家主权、安全和发展利益的,由有关主管部门处二百万元以上一千万元以下罚款,并根据情况责令暂停相关业务、停业整顿、吊销相关业务许可证或者吊销营业执照;构成犯罪的,依法追究刑事责任。

不过孙明也向雷峰网强调,尽管《数据安全法》与《个人信息保护法》已经出台,但目前缺少执法案例,我们仍要观察监管机构的执法尺度。


]]>
风控与安全 //www.drvow.com/category/DataSecurity /DJSSONDglFfaldru.html#comments Fri, 26 Nov 2021 12:31:00 +0800
工行率先发布金融业首个隐私计算白皮书 //www.drvow.com/category/DataSecurity /gxjSbhPM3KHLVWlL.html 【雷峰网】党的十九届四中全会将数据列为新的生产要素,为金融加快数字化转型带来新的机遇。金融业作为数据密集型行业和创新先行者,势必成为国家数据要素市场化的最佳实践阵地。同时,随着《数据安全法》《个人信息保护法》相继颁布实施,“如何实现数据开发利用与安全保护、如何建设安全金融数据生态”是新时代新命题,也是金融行业亟待解决的共性问题。2021年11月22日,中国工商银行发布《隐私计算推动金融业数据生态建设》白皮书,这是金融业首个隐私计算白皮书,对金融同业有着重要的指引作用和借鉴意义。

当前,金融业对数据要素流通的探索已较为领先,但数据生态不足仍限制行业发展,诸如数据维度单一、实时性不足等问题突出,跨机构、跨行业数据融合应用亟待突破。此外,金融机构简单将线下业务迁移到线上所带来的红利正逐渐消失,竞争悄然从互联网时代“流量之争”转变为以数据要素作为差异化发展的“数据之争”。金融创新也必将从前端销售、产品创新延伸到风险防控、内部运营、商业模式等全渠道、全客户、全场景的业务领域,因此差异化激发数据要素价值,建设个性化数据生态,将有力推动金融机构实现差异化定位发展。而数据信息安全是金融业数据生态建设的关键所在。金融机构需在保证使用目的与方式可控前提下传递数据使用价值。

隐私计算技术能够实现数据生态建设中隐私安全、管控数据使用目的与方式,促进数据生态建设。当前行业重点关注的隐私计算技术包括多方安全计算、联邦学习、可信执行环境等。

白皮书以安全信任基础为切入点将隐私计算技术划分为基于密码学安全的隐私计算方法、基于统计学的隐私计算方法、基于硬件安全的隐私计算方法、其它传统技术等四类。明文数据的归属权、使用权难以清晰界定,交易主体让渡数据使用权便让渡了控制权,数据用途、用量无法得到有效控制。隐私计算核心优势是分离数据所有权和使用权,开创“数据特定用途使用权流通”新范式。我国在金融领域率先谋划隐私计算顶层设计,《多方安全计算金融应用技术规范》2020年11月正式发布。金融数据融合应用试点推动国内相关应用如火如荼。

一般而言,基于隐私计算的金融数据生态包括数据方、算法方、计算方、调度方、监管方和使用方等,数据方提供数据计算价值,算法方赋能数据金融价值,计算方提供密文算力服务,调度方确保任务高效执行,监管方保障他人利益无损,使用方享受数据应用成果。各参与方需秉承开放合作理念,充分发挥各自职能,协力构建开放、协作、共赢的生态关系。

金融业数据生态具有高敏感性、高价值性、高开放性,金融业应重点关注隐私计算架构的可扩展性、可监管性。根据是否存在独立的计算节点,隐私计算可分为代理计算架构和无代理计算架构两类。代理计算架构下,计算方独立于数据方存在,具有规模经济效应,可扩展性、可监管性强。无代理计算架构下,数据方直接参与隐私计算过程,具有“短平快”效应,有利于隐私计算技术快速推广应用,但存在可监管性的挑战。

金融业数据生态建设是一项长期复杂的系统性工程。顶层设计是数据生态建设的指南针。生态建设的“硬核”包括数据源、技术架构、商业模式等内容,“软核”涵盖生态参与方、应用策略、组织保障等内容。数据生态建设初期,金融机构需围绕数据、路径、制度、模式、机制等核心要素,构建“基(数据)、行(路径)、规(制度)、术(模式)、融(机制)”五脉一体的顶层设计规划。

从金融数据生态体系性建设来看,金融业数据生态主要分为企业集团级、行业级、跨行业三个层次。隐私计算技术平台支持分级分类建设,层层递进夯实金融业数据生态根基。具体来讲,企业集团级数据生态是高效协同生态,可避免不同业务部门重复建设,降低技术应用试错成本;行业级隐私计算生态是共荣共生生态,支持金融业共荣共生,助力金融机构补齐短板、筑高风险联防联控底线;跨行业数据生态是开放共赢生态,可支持构建跨行业创新数据交易模式,全面支撑开放、共赢数据生态体系建设。

目前隐私计算在赋能金融数据生态建设的标杆场景中已取得初步成效。在客户营销方面,隐私计算可丰富客户画像,实现集团生态协同。工商银行应用联邦学习建模,安全融合自身与工银安盛数据,保险营销模型准确率提升约16%,有效实现“数据不动价值动”;在风险管理方面,隐私计算可推动多方数据融合,提升金融风控水平。交通银行海南省分行与海南省大数据局开展基于多方安全计算的联合风控,高质量公积金数据实现“惠民贷”产品45%线上审批,显著提高贷款审批效率;在监管合规方面,隐私计算驱动数据变革,提高监管科技效能。工商银行开展基于多方安全计算的驾校资金监管,实现政务、金融、企业等多方数据安全融合,支持约6亿元驾校资金有效监管。

金融数据生态建设非一朝一夕之功。白皮书指出,下阶段金融业应立足长远、形成建设数据基础设施共识,明确数据基础设施建设原则,适时规划隐私计算平台互联互通,参照互联网设计理念构建互联互通路径;产用协同、共同攻坚,加快隐私计算性能攻坚,推动安全性测评规范,治理数据要素“正负外部性”满足行业对权威第三方的需求;完善政策、有序引导:全面保障个人信息安全,出台隐私计算使用指引,构建适应数据要素特性的监管模式,建立综合性合规评估体系避免隐私计算不当使用或滥用。

附下载链接:https://leiphone.feishu.cn/file/boxcnwxkhnrJ5SnnpFk4PEpGlNQ

]]>
风控与安全 //www.drvow.com/category/DataSecurity /gxjSbhPM3KHLVWlL.html#comments Tue, 23 Nov 2021 16:30:00 +0800
安天澜砥实验室发布首款专用安全硬件 //www.drvow.com/category/DataSecurity /aGab8CUVFCXGxgnL.html 安天澜砥实验室发布DM-I型内存获取卡,这是一款面向网络安全威胁分析、捕获、欺骗式防御等场景的专用硬件设备,其基于PCI-E总线对主机系统进行无感的内存读写。

内存对抗长期都是系统侧攻防焦点。在威胁分析场景中,面对内存喷射、无文件载体木马等攻击技术当前大行其道,需要可靠的获取内存内容支撑深度分析,但基于主机的内存Dump,很容易被恶意代码反制,甚至Dump结果被欺骗。在取证场景中,由于内存Dump工具同样需要运行在系统上,会带来对内存数据的污染和干扰。在欺骗式防御场景中,采用内核驱动和应用层钩子的获取机制,很容易被攻击者感知到。在这些场景下都需要无损、无感的内存获取技术。DM-I型内存获取卡,是在安天长期威胁分析和对抗的需求中产生的特种设备。

安天澜砥实验室是安天科技集团旗下的研发部门,由安天创始人肖新光、联合创始人张栗伟、桑胜田在内部共同发起,旨在为安全能力供给专用算力和硬件。张栗伟是安天基础反病毒引擎核心算法与自动化分析提取技术的奠基者,也是安天技术委员会的首席专家,桑胜田博士毕业于哈工大微电子专业,是安天硬件与外设安全分析技术的奠基者。澜砥实验室提出了TDU(威胁检测单元)的概念。

在今年年初的安天网络安全冬训营上,桑胜田博士曾做《引擎优化之路与“芯”探索——安天引擎的效率改善回顾与展望》,介绍了安天将引擎“硬”化的计划和进展。

张栗伟介绍,安天澜砥实验室的使命是为网络安全能力强化算力基础,我们之所以提出TDU(威胁检测单元)这一概念,就是要在通用算力不足的情况下,为安天威胁检测引擎和其他的安全机制创造专属高效的算力。

肖新光表示,安天将以澜砥实验室为基础,发起专门化的控股企业,推动安全算力的提升和演进。在明年年初的安天网络安全冬训营上,安天将发布自己的安全算力路线图。

雷锋网  雷锋网  雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /aGab8CUVFCXGxgnL.html#comments Thu, 18 Nov 2021 14:27:00 +0800
疫情未决,“魔形女”奇袭 //www.drvow.com/category/DataSecurity /Ea1vHvtCSGZBjhA9.html 整个世界都处在一种离奇病毒的侵袭之下,病毒变异,强化,无孔不入。人们从来没有像这样彼此疏离、猜忌、提防与攻击。

人对病毒的恐惧,已经远远超出人对人的恐惧。但人在禁闭岛,新型威胁攀附网络之上。

在无感中,“魔形女”(Mystique)奇袭,瞄准安卓系统,Android 11。

同于漫威电影中角色,魔形女可以变成任何人,潜入防卫严密的基地,发起攻击。

在安卓11中,“魔形女”能够化为任意APP的样子,取得权限和数据,完全绕过防护机制。在用户毫无感知中,随意获取APP数据或系统数据,代表用户转账、发消息、获取隐私数据。“魔形女”漏洞成为在用户态再次打破了App包安装后只读并被信任的默认假设,躲在暗处,悄无声息地寄生。

耐心的猎手以猎物方式登场。

今年5月,京东探索研究院信息安全实验室在持续追踪安卓系统的安全研究时发现,Android11系统存在高危漏洞,并将其命名为“魔形女”漏洞。

在此之前,不曾可知有谁遭受过攻击。但全球8亿Andoid11用户面临隐私风险。

在这之外,是全球超30亿安卓用户,占世界人口近四成。魔形女野心赤裸。

这个漏洞的利用原理,就像拿到了酒店的通用钥匙,随意进入某一住客房间。

谁能想到进入房间的会是谁。黑灰产?恶意商业实体?境外黑客势力?或者一个熟悉的人?

在Android历史上也曾出现过一些可达到类似效果的提权漏洞,包括Android 5之前的远古时代,以及近5年来远程、内核和SystemServer的一些问题,如Bitummap漏洞。但随着Android防御机制不断加强和代码质量不断提高、攻击面不断削减,近年来这些漏洞可谓凤毛麟角,利用难度也越来越高。而且因为Android碎片化的现状,几年来都很难有一个稳定的通杀漏洞。

防御难度与黑客技术水涨船高。

京东探索研究院信息安全实验室高级研究员Ricky说到,“大概这五年来,大家已经没再看到过有影响面非常广泛、攻击效果非常稳定的漏洞了,“魔形女”漏洞十分罕见。”


谁唤醒了魔形女?

安卓本身是沙盒防御系统,每个数据都会隔离保存,形成一个个房间。每个房间都有一把锁,如果想串门的话,需要房间主人明确同意,即表现为安卓数据共享机制中最小权限原则。当需要授权时,系统必须明确权限范围,即访客在何种条件下,执行何种操作,访问何种资源的权限。

而Google工程师在开发过程中或许为了完成新特性,在产品设计中违反了最小权限原则,导致原本严密的沙箱设计中出现了松动,如同酒店房间的门锁制造厂商在新锁生产过程中出现失误,导致一把新的钥匙能够打开所有的门锁。

原本的一把钥匙成了万能钥匙。有了这把钥匙,能打开哪些门?

Ricky说到,“我们基本上对所有的主流手机厂商的设备系统进行了自动化扫描,发现了多个可被攻击的漏洞,最终将安卓系统的“魔形女”漏洞升级为一个具有巨大影响力的漏洞链。”

京东安全实验室凭借对安卓系统的深入了解,持续追踪安卓系统的每一次更新,在研究过程中敏锐地注意到了Android 11 引入新特性时的问题。“有这个发现之后,我们借助自研的自动化、半自动化漏洞挖掘框架,发现魔形女漏洞会利用各个厂商自身的漏洞,组合一条漏洞链条,最终达到对任意应用和数据窃取的效果。”Ricky说到。

新的风险值得行业警惕。京东第一时间向Google、Samsung、OPPO等安卓手机厂商通知了漏洞并提出修复建议,并及时按相关规定进行上报,而且向全社会用户提供了SDK自测工具。目前Google已经在最新版本的Android11和新发布的Android12中修复了这些问题。

Ricky对雷锋网说到,“因为这个漏洞涉及到谷歌自身,并且它是所有安卓联盟的盟主,首要通报就是谷歌。并且也在第一时间通知了安卓设备出货量的第一的三星厂商,以及国内用户较多,影响较大的手机厂商。但华为情况比较特殊,我们发现鸿蒙系统没受影响。因为鸿蒙系统是基于较早版本的安卓系统改造而来,反而没有这个漏洞。”

据数据统计,全球安卓机用户已经超30亿,中国品牌的安卓机几乎占全球的半壁江山,是安卓最大的手机市场,三星为第一品牌,Oppo为第二品牌,顺次为华为。

目前主流安卓厂商均已确认修复漏洞,并发布了补丁和做了系统升级。

现在企业可自行在App中部署京东探索研究院信息安全实验室博客提供的检测SDK,及时检测是否被黑灰产利用,还可以通过MDM检测员工办公移动设备,查看是否被利用于定向APT攻击。对于更多的个体用户,需要及时更新设备或打补丁,或使用检测工具查看自己是否被“魔形女”攻击过。

这也表明科技行业对发现漏洞的标准回应方式发生了重大转变。目前包括腾讯、阿里、京东、百度等互联网公司的安全应急响应中心都有一种奖励机制。

“当然有白市就有黑市,世界上也有漏洞军火商,一个安卓漏洞或者IOS漏洞在黑市能开到一百万美元的价格,获得的物质奖励其实是比报给厂商的奖励多得多。但是漏洞奖励更多的是对研究者的一个认可,这种价值会是越来越高的。”Ricky谈到。

京东自身也有漏洞奖励计划,表明对这种合法研究的认可和鼓励支持,并且在自身信息安全建设方面,也在吸引业界顶尖人才的加入。

权衡京东安全的“护城河”和行业安全的“水位线”,这个问题在京东看来并不矛盾。

京东信息安全部高级总监周群对雷锋网说到,“我们京东也有自己的安卓端用户,体量非常大。如果在安全这部分我们自己都没有发现,以及我们没有第一时间为业务体做保护,通知其他的厂商,这种风险很有可能被恶意团伙、人或者组织利用,最终会变成对我们京东用户的一种伤害。”

从企业到行业,不变的是用户群体。但站在什么立场上考量用户,关系到企业发展的长期战略。


迈出京东舒适圈:从场景安全走向生态安全

京东安全团队建立可以追溯到2011年,而专门从事前沿安全技术研究的安全实验室从2017年建立至今,也已经走过快四个年头。四年前,京东安全实验室的名字还是“安全攻防”实验室,是在当时全球范围内AI、IoT 和云计算快速发展中的技术迎头之举、业务安保之举。

发展至今,京东安全的实验室研究发展为三个部分:其一是基于业务的安全研究,其二是偏底层通用性的安全机制的安全研究,其三是最新前沿技术的安全研究,例如AIoT。目前京东在硅谷有一个安全研发中心,主要是AI安全、黑产对抗、IoT安全研究,也包括国内的京东牧者安全实验室,主要做IoT安全、区块链安全、开源社区等研究项目,包括大家熟知的麒麟框架等。另外还有会致力于基础设施漏洞方面的研究,即Ricky团队。

目前京东安全已经不仅关注自身业务中的安全场景,更将”京东特色”、“零信任体系”为目标,以“互联网免疫”为理想,力争向产业输出前沿安全能力。

周群谈到,“技术公司做安全,可能会把安全切分成很多个维度,应用安全、办公安全等。从京东的角度看,其实所有的安全都是建立在企业信息化的基础上,最终归为三大类:计算类安全、账号类安全、数据类安全。”

针对三大类资源,解决所有企业共通的问题,解决IT基础设施数字化能力落后的同时还要消耗大量的时间和精力逐个定制每家企业的安全机制,或者说很难标准化地服务。如果通过一种零信任的框架,以低成本、卡点机制作为增量控制,以一系列的安全经验做存量问题消除,把整个行业的安全机制建立起来,这是京东能够做成的事情。从源头解决企业的安全问题。

这是基于京东多年来"黑灰产"的对抗经验,也是结合行业前沿的安全体系和安全技术,以及零售、物流、数科、保险、健康等各领域积累的安全运营经验。

这里面既有挑战,也有京东这种大体量公司积累起来的经验支撑。“整体上看,这些也是现在的发展趋势之一,让各家公司互联互通、整体开放,一起构筑行业整体的安全生态。”周群说到。

随着京东整个业务体态的发展,从最早全部线上的业务环境,到现在全球规模最大的线下仓配,其中包含的大量电商场景、支付场景、物联网场景、云场景等全维度场景,包括物流体系已经引入越来越多的人工智能等一系列的新技术。从安全战角度来看,京东从过去只需要着眼自体生产网、办公网到现在仓配网、供应链,用户与客户体系,以及行业生态体系。只要用户参与的,有感的,对京东来讲都是防护范围之内。无论是从安全边界、深度、还是广度,京东安全都跟此前不一样。

周群谈到,“京东安全是基于京东的内生安全能力,联手生态伙伴共同打造安全基础设施。本身京东业务场景在国内来看,都属于最上层、最复杂的规模。”

从企业出发,做安全的事情,更像是用一根纵线为所有业务放置了一块背景板。当然从顶层设计来看,应对互联网行业的安全变化是行业可持续发展的内在要求,也是负责任大企应尽的企业义务,这不是别人要大企做,而是企业自己要做。

目前,京东在保护自身各个业务线安全的同时,也将这些安全能力对外赋能,在企业客户那里也沉淀了案例和口碑。现在,京东安全正在与京东各个技术服务业务线合作,一起将安全能力输出给更多的客户和合作伙伴,帮助整个生态提升安全水位。就比如此次漏洞的发现,帮助知名企业修复漏洞,向大众提供检测工具,都是为生态伙伴提供安全支撑。

京东目前正在准备第三条曲线,技术服务于企业数字安全,也是技术赋能于京东整体业务。可以预见的是,企业进场做数字安全服务的事情,并不在于企业能够提供多大的横向产品矩阵,而在于参考企业自身的生态系统,推出更好的服务组合。

“在京东内部,我们不会把风险等级作为单一维度,从安全风险的等级看,它可能是严重、高危、中危、中低危。但是这个风险最终的定级除了技术的危害性之外,其实更多的是参考企业本身的业务承载面。”

“我们毕竟不是纯粹的安全厂商,可以去以技术去彻底定义一个漏洞。我们企业服务的整体策略是,不能打扰企业业务的正常进行,但相应的数据安全的工作要得以保证。”

Ricky从技术角度回应周群的工作, “我们希望扩大互联网的安全边界,对基础设施安全增加更多投入。两年之前,京东内部成立了保护生态数据安全的专门行动,希望可以通过这套数据安全体系,保证流转数据的时候,就完成数据的脱敏、加密等一系列安全工作,进而保护企业核心数据以及用户隐私安全。另一方面针对漏洞挖掘框架,推动框架朝着基于程序分析和人工智能的自动化系统转变,将整个网络安全攻防往自动化、机器化方向发展,这符合整个国际发展的大趋势。”

在魔形女漏洞的发现中,京东的漏洞挖掘框架就发挥了自动制敌的效用 ,框架包含“静”、“动”、“专”三个维度。“静”为基于人工智能的数据流程序分析技术,“动”为基于遗传算法的动态程序测试技术,“专”为基于专家经验的变异分析技术,三者有机结合并互相补充,可对泛IoT设备/系统、App等进行全面而深入的漏洞挖掘和隐私风险发现。仅在今年上半年,京东安全实验室就借助该框架发现了数十个CVE,帮助多个生态伙伴消除了大量风险。

近几年来,病毒和漏洞几乎从我们视线中消失,更多的转义为隐私泄露,本质原因是业务数字化和数字业务化拉动的产品形态的变更。在这背后,有更多像京东一样开辟第三条增长曲线的企业,推动安全技术水位拾级而上和白帽红帽蔚然成风。

在技术向好的另一面, Ricky说到,“对于我们来讲,软件系统会不断更新,需要我们不断地进行安全测试,才能保证它不会出现设计问题。这不是一次就可以搞定的事情,必须要有持续性的投入,一刻都不能放松。

第二我们认为安全是一个体系化问题,像魔形女漏洞其实利用的是一个个漏洞组合。在魔形女出现之前,这些漏洞也存在,危害没那么大,导致大家掉以轻心。但一旦前面防线决堤,后面防线马上就会崩溃。这也告诉我们应该是搭建纵深防御的安全体系,重视每一个安全问题。这是一件任重道远的事情。”


拥抱每一座孤岛

疫情未决,漏洞袭来。病毒不仅在检测各个国家的效率、强弱与文明,同时还在考验着人性。漏洞在验证着企业的技术能力,也在考量企业对社会责任的整体态度。

周群在这时谈到:

很多的事情并不发生在企业之内,而是源于外部业务环境管理不善或者系统问题导致的数据风险。但从用户端的感受来看,就是我的数据被泄露了。因此,我们想更多地帮助用户解决个人隐私保护的问题。

一家企业首先看向无数体量的个体,才能在内卷深海中拥抱每一座孤岛。在海明威引自英国诗人John Donne诗作中,两三几句能解企业长期战略的问题:

No Man is an Island

No man is an island, entire of itself

every man is a piece of the continent, a part of the main.

没有人能自全,没有人是孤岛,每人都是大陆的一片,要为本土应卯。

]]>
风控与安全 //www.drvow.com/category/DataSecurity /Ea1vHvtCSGZBjhA9.html#comments Sat, 30 Oct 2021 17:44:00 +0800
「跑马圈数据」时代,12位产学研专家眼中数据要素与数字金融的「真相」 //www.drvow.com/category/DataSecurity /6Fvzzyn4n56YoDbJ.html

本周,“2021人工智能产业论坛:数据要素与隐私计算”在成都举办,由中国人工智能学会主办,星云Clustar承办。论坛上,近二十位来自人工智能、金融科技的学术界、产业界人士,围绕隐私计算、数字金融等话题展开了深入的探讨。

专家们在会上一一指出数据要素从诞生到使用、交易的各种痛点所在,并结合自身实践经验给出了发展路径的思考;金融机构、政企合作如何借此良机推动数字化进程、摆脱种种陷阱,也同样是论坛的一大重点。

恒生电子研究院院长、原上海交易所总工程师白硕就指出,“跑马圈数据”时代的两大痛点,是合作难和链条长。解决方案是加宽加高底座,打造一个开放的生态。数据智能革命会从数字化的中台开始,数据是基础,中台是关键场景的规划,隐私计算是当中较为突出的技术之一。

数据容易被复制、泄露、扩散,这种特性对市场非常不利,以至于有些人认为数据的经营和交易有可能是一个伪命题。

数据的构成也相比之前变化颇大。例如资本市场,从资讯商提供主流数据行情、上市公司标准化解决数据等,进入到非标数据分析的时代,大量的另类数据、非结构化数据出现。

数据生态起了根本性变化,为此有四种选择诞生:过去互联网平台的发展模式;政府数据所谓的数据服务模式;万德、同花顺这类私有终端的传统模式,单一厂家掌控所有的数据来源;数据联盟。

传统打法可能不再是主流,私有终端也未必能应对另类数据的庞大体量,联邦化的技术发展正值窗口机遇期。

数据到场景的链条过长,从附加值低的裸数据,转型艰难的带标数据,再到智能化深加工的数据、场景数据,各阶段所需技术不同,不同技术的拥有者变成了要“分段”体现自己的价值。这意味着谁能打通全链条,就可能占据生态上的优势。随着隐私计算走向成熟,机会也出现在了to B的联邦化数据经营战场。

新的机会,纵向看,内容集成商对接数据到场景的旧做法,可能会演化到全栈服务商提供内容深加工的形式;横向看,外部数据、服务会通过带保护的方式,进入到基础业务能力,合并形成统一的联邦化中台再对接业务。

加拿大工程院院士、加拿大皇家科学院院士杨强,则就《数据要素与联邦学习》为主题带来分享。他指出,数据的特点之一是增长迅猛,布置起来零成本;数据的价值属于场景的定义,场景不同、价值不同;同时它也具有马太效应,更容易形成垄断。

数据分为可用和不可能,前者又细分为可见和不可见。我们如今感兴趣的,实际上发展的是可用和不可见的分支上。

第一阶段,上世纪七八十年代,安全多方计算,针对精确计算和数据库查询的隐私保护需求而提出。安全性非常强,有理论证明,效率却非常低。

第二阶段,针对效率问题,提出差分隐私概念。通过概率方法引入噪音,使得查询方不能窥探数据库内。缺点是不能完全保障安全,且大量增加通知量。

第三阶段,集中硬件加密计划。硬件厂商提出新的芯片,使数据进入安全加密计算,一方看不到其他方数据,计算结果大家可以得到。

第四阶段,联邦学习,针对这种大规模复杂的计算多方计算而建立。

(推荐阅读:《微众银行首席AI官杨强:万字图文详谈联邦学习最前沿》

机构间建模时,多数依靠特征补充来建立更好的模型。当机构和设备重叠不多时,可引入迁移学习的概念,把数据空间给迁移到一个新的空间,这多数是用在异构的数据。

还有一个重要研究方向,是激励机制的建立。例如利用区块链来记录审计,每一个数据拥有方对整个联合模型的贡献。这就需要一个公平的利益分配原则,需要经历机制设计的过程。

应用方面,首先在金融的交叉营销、反洗钱,可以通过联邦学习把他们的数据联合建筑,把模型的特征空间加以扩充,完成联合建模;以及医疗诊断、物联网、无人车网络等。

总体来说,联邦学习是多学科的交叉,包括安全合规,如何防御攻击和提升教育,如何广泛的来进行技术应用,还有如何建立这种联邦机制联盟的机制,以鼓励大家持续的为经济体为生态贡献。

而隐私计算的商业模式也逐渐形成,例如平台建设方靠硬件产品部署和提供利用项目建设的方式收费;咨询服务商帮助大平台进行数据价值解读,利用数据运营等。

香港科技大学智能网络系统实验室主任、星云Clustar创始人陈凯,与清华大学金融科技研究院副院长、华控清交创始人徐葳也就隐私计算和数据要素两大主题,带来了一场深度对话。

数据保护现状是否也促成了更多潜在的商业机会?对此,陈凯表示机遇与挑战并存,面临的挑战首先是产品;徐葳则指出,长远来看,挑战仍然在于数据能否带来价值。

而对于技术应用角度如何积极适应规则,陈凯表示,很难有一个技术/算法能够最小地完成最小影响,最小范围、最短时间;法规是在技术研究上给予约束条件,帮助推动研发和落地的进程。

当被问到隐私计算未来发展的特征,陈凯表示建立安全的数据网络意义重大,如何处理大量不同机构间的异构数据、性能和规模上处理海量数据、如何让利益共享的性能有指数级的提升,当中有许多值得努力研究的难题。

徐葳则笑称“只有烂大街的技术才是好技术”,认为一项新技术未来的表现,要看技术本身能否成功、使用门槛能否降低。数据源也在逐步有机生长,很多不同行业、不同地区的小平台被建立起来交换数据,如何让这些异构平台也增长成功、小的计算方法和技术整合起来,实现规模经济,也值得关注。

百度安全产品总经理韩祖利也认为,数据要素呈现几大趋势特性:规模上升,类型增加,数据价值密度降低,应用场景也在泛化。

在他看来,当代数据安全的核心要义:应对强对抗的安全问题,非对抗安全和内部使用的权限、审计,隐私保护。因此一个方案如果诞生,应具备三个特点:覆盖数据全生命周期,一体化的集中治理平台,和合规的数据使用、流通形式。

成都大数据集团总经理顾勤就表示,关于科学要素流通的创新实践主要有三个阶段:公共数据运营;整体数据流通,政府的公共数据和社会企业的数据间产生碰撞;产业数据的协同。

以第三阶段为例,即产业数字化,有两种方式:传统产业的体能升级;创新产业的协同效应,通过系统的互联、数据的交互,产生新的价值和场景。

第四范式副总裁、主任科学家涂威威,则在演讲中提出这样一个问题:传统的数据安全设计,能够覆盖AI应用的范围吗?

在训练到预测的许多环节里,都出现了他们预想不到的攻击方式。多种看似正常合法、实为攻击的手段,已经发展颇为成熟。

例如AI公司对外提供信用卡授信模型,攻击者可以通过不断申请、使用授信服务,将反馈回来的数据用于“猜测”那个授信模型。如果这样的新模型被训练出来,攻击者有可能就会猜到训练集的内容,相当于数据泄露,但该过程中的行为均是合法的。

很多研究陷入了停顿状态,AI应用是一个广大的系统,攻击者能以任意方式攻击。在实际应用当中,即便这部分防住了,其他地方依然有很多的缺口。而AI相关理论目前尚未辨析清楚,如果用于引申的AI应用当中,其实际指导作用十分有限。

为此,从传统IT安全角度出发,从商业逻辑和可行性出发,讨论隐私安全是一种矛与盾的理论,要加强对攻击者的研究。

论坛的下半场则关注数据要素与数字金融。国家金融与发展实验室副主任曾刚,从金融机构数字化的角度切入,指出需要组织架构和数字化基础架构的调整、创新;数据资产化能力和数据治理、数据营销和运营能力、数字化风控能力,只有少部分金融机构做到了。

以前是实现商流,物流,资金流三流合一,这个是打造闭环模式重要的理念。但是现在这个闭环模式意味着对数据的垄断,所以要打破。

最后他强调,数字化的本身并不是技术多高、计算能力多强、准确率多高等,从传统金融机构角度来讲,核心是服务客户的需求。因此数字化并不是一味追求数据领先性,而是适应性,适宜性,寻找最合适的技术。

清华大学国强教授、智能产业研究院首席研究员聂再清,也提出了两个具有挑战意义的问题:

一是模态数据。如何联系不同模块来提升AI的认知能力,使其综合应对实际应用的水平提升,应用好各模态间的信息?

二是多模态应用,训练成本颇高。如何提升人机协作的效率,更多利用AI来低成本生产高质量的知识和训练数据?

那么,在可信AI原则下,如何发挥私有数据的价值?他指出,要这些原始数据利用机器学习变成知识;通过经济方式共享、联邦的方式,看到“私有财产”数据的价值,得到应有的经济回报。

建信金融科技创新实验室总经理王雪,分享了建设银行和建信金科在数据和隐私监管趋严的前提下,对解决路径的思考:

一,所需要的隐私计算平台本身的功能,一定是和场景、需求强绑定的。其开发过程需要由长激动不断调整和验证。

二,在此过程中,场景和生态要有相互促进,场景和运营能力的不断提升对平台起到反哺和教学的作用。

三,核心思想仍然是通过隐私计算能力实现数据价值最大化。

王雪也结合了数易联平台的建设,介绍了建行对该平台的规划细节。她表示联邦学习也在集团内部有所应用,用于产品营销、政务数据的融合与挖掘等。

星云Clustar的CEO陈沫也透露,他们已与建行合作搭建了一个联邦学习的联合建模平台。

光大信托信息技术部副总经理、数据中心总经理祝世虎就指出,很多中小银行在金融科技上落入后发劣势,后浪可能仅学习前浪表面容易实现的部分;而前浪也容易陷入一套模型对所有业务、建模套路化的陷阱,模型容易失去准入效果。

他预测,未来金融科技发展会有六大方向:

  • 深度学习算法将会被广泛采用,随着数据的进步,深度学习算法才会充分发挥活力;

  • 多模态数据、非金融数据会广泛使用;

  • 网络发展解决了反欺诈的问题,图谱能够识别新型欺诈,多维图谱的不断丰富会成为银行的第二数据源;

  • 联邦学习会大规模落地;

  • 算法的可解释性将会被逐步重视,近两年都集中在特征重要性的排序上。不过也不要一味追求可解释性,智能的本质是利用算法和数据,抓住那些被埋没的不可解释信息出来。

  • 自动化的监控平台将会逐步的升级为模型风险管理平台。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /6Fvzzyn4n56YoDbJ.html#comments Fri, 15 Oct 2021 11:46:00 +0800
倒计时1天 | 破解AI金融工程化难题,2021数据极客算法建模总决赛来袭 //www.drvow.com/category/DataSecurity /3UXXY2oYfuhMTy5G.html 数字经济已成为国民经济的重要推动力量,而金融行业数字化转型也是“箭在弦上”。

中国互联网金融协会会长李东荣曾表示:“当今世界正迎来一场更大范围、更深层次的科技革命和产业变革,经济社会数字化发展正进入快车道。其中数字金融作为数字经济的有机组成部分和重要支撑,也正日益成为各个国家乃至区域间金融竞争合作的制高点。”

而在此过程中,如何帮助企业塑造一支具有数字核心竞争力的团队,将创新技术实现工程化落地,对实际业务场景做好深度数字化改造,也成为个各个金融机构的数字改革和竞争的首要难题。

2021年7月,以企业级数字科技竞赛平台为目标,骇鲨与SAS、氪信、和美以及索信达4家科技公司联合开启了“2021数据极客算法建模拉力赛”。

经过激烈的角逐,64支精英战队从两百余支参赛队伍中脱颖而出,入围决赛。

为吸引更多科技爱好者及从业者关注技术实践新动向,构建开放的数据科学生态,此次决赛赛事组,将在9月10日以直播形式组织金融科技线上分享会,从产业现象着手,探寻大数据分析、NLP、知识图谱、CV等技术的前沿应用,在科技落地“最后一公里”的路上,解锁AI工程化的密码。雷锋网

决赛时间

]]>
风控与安全 //www.drvow.com/category/DataSecurity /3UXXY2oYfuhMTy5G.html#comments Thu, 09 Sep 2021 16:52:00 +0800
对话乐信CTO陆勇、CRO乔杨:八年时间,1.4亿用户,一艘「巨轮」的「内外兼修」 //www.drvow.com/category/DataSecurity /iuiA8MhH8beYfCcQ.html

“能够生存下来的,一定是最能够适应变化的。”乔杨感慨道。

金融科技平台们已经不算年轻了。八年时间,互联网金融已惊涛骇浪一遍遍,顶住风浪远航的船只屈指可数。

乐信,是其中之一。

这家生于深圳的金融科技公司已经走到第八年,大船航行却越发稳健。上周乐信也发布了2021年二季度财报,简单看几组数据:

  • 截至今年二季度末,乐信的累计用户数已突破1.4亿;新消费生态商户数超1000万家,金融合作伙伴超100家,在贷余额为905亿,预计年内破千亿。

  • 目前,乐信1天以上的逾期率为4.92%,比去年同期降低39%,风险表现为近两年来最优;最新坏账回收实现回收率和回款金额也创下历史新高。

直到今年夏天,外界才了解到,首席技术官陆勇、首席风控官乔杨已经悄然入职乐信数月,执行着一个漫长且艰巨的任务:

对内,是一场数字化变革,让这艘大船的每个零部件运行更顺滑,把乐信近十年来经历的“风浪”更好地沉淀。

对外,是把厚实的经验和能力“家底”整合为产品体系,“集装箱”式地输出,抵达“纯科技服务模式”的目的地。

这当中没有哪桩是容易的,曾任平安寿险CIO的陆勇给我们粗略算了笔账:数字化转型,如平安、美的这样体量的企业,都花上了十年八年,斥资百亿。

同时,不断招兵买马、优化团队,提升人才密度,调整组织架构和协同机制。对B端业务的规划徐徐展开,新消费业务也正在成为乐信的第二增长曲线。

金融科技这片海域断不会就此平静,乐信的航线和作战计划无比清晰,“舰队”整兵齐将,亟待加速航行。

风控“升维”:策略、归因、自动化

一艘平稳远航的大船,风险管理必然是这艘船的“龙骨”。

受疫情影响,不少平台机构从2020年初开始都经历了逾期急升、坏账剧增,至今还没有缓过劲儿,但乐信的风控成绩斐然,二季度90天以上的逾期率为1.85%,资产质量却达到了近两年的最优水平。新增借款FPD30,已经连续12个月保持在1%以下。

(注:FPD30是指首个还款日后30天逾期案件GMV÷次月订单GMV)

与市面上不少信贷风控解决方案颇为不同,乐信在风险管理的“排兵布阵”并没有拘泥于贷前、贷中、贷后的全生命周期管理,而是分为两大维度的“双保险”。

先是基于前沿科技构建的全AI风险策略系统,以复杂网络、自动特征生成系统、无监督用户聚类、基于位置定位的风险评估体系等一系列“黑科技”为“建筑材料”,和过去八年的业务经验一道迭代优化出“地基”底层能力,包括坏账预测、利润追踪、营销策略等能力,支撑“上层建筑”策略体系。

策略体系则指向大家所熟悉的授信、额度、交易、资产配置等部分的决策,再向上全面灵活支持前端业务各个环节。

但风控不只是一瞬间的决策,乐信想到了要再建一套数字化管理系统,“升维”到更高屋建瓴的视角,用更长久耐心的观察,来管理风控本身。

新上任的CRO乔杨,曾先后任职于美国通用电气、Discover、京东数科,有着超过十五年的全球头部金融和科技公司风险管理经验。他来到乐信的第一件事,就是完善高质量的风险管理团队和体系。

他向雷锋网AI金融评论透露,他们搭建了一整套完善的风险监控预警和自动分析的系统,形成了按周、按月的追踪预警分析机制,可对核心指标完成自动化评估、复盘和走势预测,甚至能将策略体系的表现、模型价值、用户管理等一系列表现细化到每一天,按天追踪目标是否完成。

倘若实际情况与目标有偏差,算法将分析出哪些因素对偏差影响最大,他们再进行针对化地风险管控和拦截——这一部分,被称为自动化归因。

如果说全AI风险策略系统是一座稳固的摩天大厦逐步落成,内里复杂精密,日夜运转不停,那么这套监控预警和自动分析系统,就像是给大厦装上无数传感器和摄像头。

以往可能要每月末、季度末整栋楼检修,或者明显的投诉出现,才能查出漏洞,但在自动化、数字化的管控之下,风险管理人员可以及时精准定位问题、分析问题和解决问题。

“今年早期,我们发现入催率有一定上升。”乔杨讲起年初的一次经历,当时系统发现了这一上升趋势并预警,随后自动化归因系统对波动中的主要影响因素,以气泡图的方式展现出来,气泡大小代表影响程度——气泡之一,就是行业某头部平台用户。

“因为年初该平台对用户进行了一波降额和关帐户的操作,使得这批用户的流动性出现一定的压力,所以才会显示他们造成风险上升。再通过自动化检测和一键拆分,将这批用户精细到不同分组,对症下药,终于在一个月内让入催率恢复到正常水平。”

但风控不只在于“控”。风险管理是一门平衡的艺术,将谁放在天平两端,同样考验着管理者的战略目光。

乔杨表示,此前他们更在意GMV的提升,但如今要保证利润的前提下,同时针对乐信自身需求和用户要求,完成风险定价和额度体系的差异化。

就以定价为例,对有着强烈借贷需求的用户(借贷饥渴用户),定价上涨并不会严重影响到交易额,同时潜在利润率上升明显。

但对优质用户(即还款意愿和能力均优,但借贷需求不高的用户)而言,过高的定价没有带来大幅增加的利润,反而容易导致他们的交易量下降。

这样的策略精细化升级,不仅是为了业务增长,更为了在利率下行、监管趋严的大环境中,健康稳健地走得更远。

不过,乐信的风控建设绝不止步于此,长远规划已经出炉。乔杨向AI金融评论透露,在数据应用上,由于乐信并非纯信贷平台,交易、电商等多维度的数据积累更为丰富,让自有数据“物尽其用”会是首要任务;也将遵循监管要求,加强数据安全和隐私保护。

征信方面,乐信将与征信机构保持密切合作,并加大对人行报告的解读力度。

前文所述的监控预警自动化系统,不光聚焦C端业务的风险,将这套系统在B端业务持续完善,同时提升覆盖度和延展性,尽可能降低人工干预的操作风险,也是乐信今明两年的重点攻克方向。

风控以外的技术“百团大战”

AI与风控的结合,无疑是乐信的“拿手好菜”,但他们也意识到,风控以外的功夫,远远不能放松。

“整个业务链条,每一环都有巨大升华空间,这是我们未来2-3年内持续深耕投入的地方。”CTO陆勇曾是新浪移动CTO、平安寿险CIO,拥有超过20年技术研发和管理经验,他迅速排查出了乐信这艘大船未来可能出现的短板。

这场严密细致的技术升级,仿佛游戏通关打怪,一环扣一环。

第一环,精准获客,是陆勇最熟悉的课题之一。“投放广告或是渠道合作时,怎样精准找到我的客群,怎样用最合适的竞价让流量进来,怎样达到最高的转化率,这实际上是过去十年、二十年中非常经典的问题。”

如何迅速透彻地了解一个新用户,同时又不能踩到隐私保护的红线,更是乐信乃至各大互联网平台都绕不开的痛点。

为此,陆勇带领团队兵分两路,一路造“盾”,向联邦学习建模“进军”,在保证完全合规保护用户隐私的前提下,进行安全的数据共享;另一路造“矛”,不断深化用户全链路价值模型,充分挖掘人群属性、提升算力等等。

智能资产匹配,是乐信业务链条中承前启后的一环,“就算只有0.1%的改善,都是非常可观的净利润提升。”

陆勇定下的目标是,达到全局最优的匹配。

但这对所有互联网平台而言,都是极具挑战的命题:过程是多目标优化,约束条件也有多个,同时来自资金方或是乐信自身,还随时可能发生变化——可如果算法做不到动态优化,则牵一发而动全身。

他告诉雷锋网AI金融评论,攻关路线定在这三条:

“多目标的动态规划基础,这也是行业内比较经典的技术;接下来要做的,是强化学习以及多种深度神经网络算法和图算法,包括粒子群算法。正在尝试的进化算法类模型,也比较有效。”

助贷模式下,资金方的接入,是看似琐碎平常却大有优化空间的一环,也是颇具数字化转型色彩的一环。

由于资金方的需求、合规流程、内部系统往往千差万别,行业内通常要用1-2周时间完成接入。但在今年面世的Toplink系统帮助下,乐信接入资金方的时长缩短至分钟级;同时通过鲁班系统,完成接入流程的全自动化测试。

Toplink背后,是五大模块的优化贡献:贷前,流程编排,自动校验,规则器,元数据映射器。简而言之,是用机器配置计费、规则各种平台,让AI去理解合同,既免去了六至七成的人工操作,也达成了更精准的接入效果。

不只是Toplink和鲁班,陆勇表示,乐信内部有上百个这样的小型标准工具,将接入流程的每处细节加速打通,不仅可以释放人力,其他业务环节也能以此为“样板”优化工作效率。

而在乐信整体的技术大方向上,他透露,机器学习是投入最多的一环,团队也着重发力于机器学习平台2.0,达到深度学习、多模态学习、多目标学习等,期望AI和大数据未来能在业务全链条,甚至是企业内部的经营管理环节, 比如人员招聘、人才管理上,都能大展身手。

此外,中台建设、AI中心的加强、运维能力和安全能力的提升,也将是乐信后续的主要技术调整方向。

向外输出的“铁三角”

在对自营业务的管理精细化、自动化,加强“自体造血”“新陈代谢”能力的同时,乐信也已经形成了一套对外“献血”的成熟体系。

“很多人总觉得,传统金融机构的痛点就是缺流量、缺用户、缺乏科技风险管理能力等,但最核心的原因是,其实是缺乏风险定价能力。”乔杨说。

当机构面向多元的用户需求,没有“精耕细作”的风险定价能力就招架不住,旧用户留不下、新用户进不来,后续的信贷风控管理也就成了无根之木。

为此,乐信通过“乐图”“乐图Pro”“负熵”三个系列产品组成对外赋能的“铁三角”,面向不同的资产类型,向合作金融机构输出不断精进的风控能力。

据乔杨介绍,乐图和乐图Pro分别面向乐信站内和站外的资产,前者以助贷平台形式,帮助合作伙伴提升贷款通过率、守住资产风险。

当合作金融机构与其他互联网平台合作,乐信则通过乐图Pro输出标准化风控产品,加强传统金融机构对线上流量的判断力。

当前乐图合作机构超过6家,平均每家通过率提升1.69倍;服务于非乐信资产的乐图Pro,日均调用量超过8万次。

尽管乐图及乐图Pro数据亮眼,但负熵才是乐信最寄予厚望的“终极形态”

近年来,监管持续鼓励银行加强自营业务和自主风控能力,AI金融评论也多次报道中小银行的独立风控困境。乔杨预计,银行普遍独立完备风控的目标,需要五到十年时间才能达成。

有业内人士向我们强调,银行必须要从自己的土壤中“长出”这些能力,而不是依赖现成的方案。

负熵的定位,正与这一思路吻合,以深度绑定、联合运营的方式,拒量回捞,帮助银行搭建自营业务的闭环能力。不仅是单纯替银行获客,更要提供成套的定制化风险服务能力,所有服务交易环节在银行自身的账户和产品体系内完成,从而让银行做大业务规模。

今年一季度,负熵正式面世,上线首月即完成了约五千万的交易规模目标。

除此以外,乔杨还向雷锋网AI金融评论表示,去年年初开始,乐信对催收就进行过大幅度智能化改造,包括智能语音机器人用于催收,用语音质检规范客服交流标准,催收案件的分类、分派和分析等——这一整套贷后催收的能力,也计划全部开放给合作机构。

结语

在与陆勇、乔杨的对话中,乐信的更多发展规划,也像那些被拆分、细化的气泡,呈现在航海图上。

例如在人员规划上,他们已经着手提高人才密度,搭建、优化团队,对组织架构进行一定调整。

同时,对存量业务和新业务进行组织化拆分,新业务的授信、交易、额度管理等体系都独立出来。

“新业务追求短期内的不断迭代优化,不能一套风险管理逻辑、同一批人马,既做线上又管线下,既做C端又做B端,对响应速度影响很大。”乔杨解释。

陆勇也盘算了详细的科技进化“四步走”,先是数据打通拉齐,再是数据分析治理,然后数据归因,最后形成一定的辅助决策、预测能力。

“把基础打牢,把过去没有做好的事情理顺,实际上我们的储备相当可观,最重要的就是开始落地。”

金融科技这片海域从未有过多少宁静,但总有人愿意驶入海中,偏向波涛汹涌处行。一切正有条不紊地开展着,陆勇也告诉我们:

“这是大爆发的前夜,我们准备好战斗了。”

]]>
风控与安全 //www.drvow.com/category/DataSecurity /iuiA8MhH8beYfCcQ.html#comments Mon, 30 Aug 2021 14:41:00 +0800
中小银行的风控题:大行都做不好,十几家AI公司能行吗? //www.drvow.com/category/DataSecurity /bg6Ibr7DESU2tqIL.html

“跟大行对接之后,之前花钱、招人好不容易做起来的东西,会不会都变成了炮灰?”

一位农商行的零售金融部负责人,在《大银行「不配」帮中小银行做风控吗?》一文发出后,向我们表示了他的担忧。

中小银行的独立风控困境,可谓是“身世浮沉雨打萍”。他们担心着自己的努力前功尽弃,既渴望被帮助,也害怕被淘汰、被兼并的结局。

这是一场发生在银行科技领域的、经典的多方角力戏码,大型银行、中小银行、互联网平台与第三方风控企业,四股力量被卷入风暴之中。

上篇文章中,我们讲述了这场角力的A面故事:为何在监管的厚望下,中小银行与大行在风控上的合作,落入一种微妙的僵持。

B面,则是互联网平台携流量被动出局后,总是拿着“配角”剧本、站在主角银行们身边的风控技术服务商们,有望作为“第三人”盘活困局。

在遭遇大数据的强监管、P2P彻底退出历史舞台之后,风控行业进入存量玩家博弈的阶段。监管鼓励大行输出风控能力,对第三方风控公司来说会是一个巨大的威胁吗?但在他们看来,这正是摩拳擦掌、直面挑战的好时机。

这些故事,是这场风暴被熟视无睹的另一面。

谁来承担中小银行的“量身定做”

互联网贷款新规出台后,中小银行需要走出“舒适圈”,摆脱对互联网平台的流量依赖,告别以往以联合贷款为主的主流线上贷款模式。

品钛CEO李惠科指出,互联网巨头确实自带流量和数据,也精通互联网场景运营,对市场来说是一种补充和竞争。

“但相较于大行,他们的合规和业务深度还不具有优势。”李惠科认为,尽管互联网平台在场景有优势,但由于通常是在自家流量的生态闭环之中来做赋能,场景有时会反向限制赋能输出。

也有业内人士称,原有模式下,与互联网平台们的信贷合作,其实多半是风险外包模式,银行基本拿不到什么关键数据,只做形式化风控而已。

也正因如此,监管层会寄望于大型银行的输出,期望以更合规和成熟的方式,助力中小银行风控成长。

但如上篇文章所说,大型银行强则强矣,向中小银行输出风控的效果却未必令人满意。

“各自对客户的定义都不同,怎么能帮别人做风控?”一位曾在银行从业多年的咨询公司高层这样评论。

他向雷锋网AI金融评论强调,“输出风控的范围太广泛,是系统、流程、岗位设置,还是别的?大行应该也不允许策略和算法的直接照搬。”

此前多位业内人士表示,中小银行的服务规模和客群,自身的组织架构和技术水平,配套设施都远逊于大行,不见得就能很好消化大行的输出。

中小银行的地方性特征也会反映在服务客群和资产质量上,大行全国化、通用化的数据模型和风控经验,是否能和中小银行这些颗粒度偏小、更下沉的数据适配,还是要打上一个问号。

而大行无论是做风控系统和工具,还是设立科技子公司,首要目的仍然是为自身的业务创新和技术积累而服务,他们不一定会为中小银行的特殊业务场景和需求,下功夫构建专属的风控体系。

“每家银行都在寻求外部合作,缩短自身风控提升的路径,但他们都有自己的特色和发展背景,解决方案上肯定会有一些定制化——这就好比一个商品房的户型和外观都是一样的,但里面的装修和格局可能会有不小的差异。”融慧金科COO欧阳永明解释。

“与前两年不同,现在中小银行对风控的意识更强,在自主风控能力建设方面愿意投入的资源更多,跟厂商的合作也更加紧密。”邦盛科技首席产品官王雷指出。

他表示,在与中小银行沟通的过程中,感受到他们希望风控厂商的解决方案能够对互联网客群的风险有更深的识别能力,希望能够借助一些外部数据提升识别的准确性。

大行抢饭碗?不怕

为中小银行风控保驾护航的赛场上,竞争似乎更多来到大行科技子公司和第三方风控公司之间。

其实早在前几年,银行纷纷设立科技子公司之时,业界就已讨论过:这些新生力量是否会挤占金融科技公司,尤其是风控企业们的市场。

这会是新的挑战吗?当时曾有多家知名风控企业的高管向雷锋网AI金融评论表示,不认为会造成太大威胁。

而三年时间过去,随着市场分工的逐渐明晰,技术的日渐精进,风控公司们更有底气给出一个否定的答案。

“目前我们参与大大小小的项目招投标,暂时还没遇到银行系科技子公司来直接竞标,说明在各个细分领域都存在很多机会——市场空间广阔,还没到谈挤压市场份额的程度。”冰鉴科技研究院高级研究员王诗强表示不担忧。

“银行科技子公司技术输出的方式多种多样,可以是软件输出,可以是云服务,可以是咨询服务,也可以是反洗钱系统输出,这些都和风控相关。而我们只是在整个风控大市场中的某些环节非常擅长,比如依托AI的建模能力。我们甚至可以和银行科技子公司合作,共同为中小银行服务。”

服务对象主要为中大型金融机构的邦盛科技,也称并不担心趋势变化,与大行(包括科技子公司)更多是合作而非竞争的关系。

“金融风控市场的空间非常巨大,中小银行的数量非常多。最终不同角色和基因的参与方,都能在其中找到各自最适合的定位。”

在他看来,未来不会出现大行科技子公司完全挤压三方厂商的空间,或者三方厂商独占中小行风控市场的局面。前者的资源配置较适合于行业的共性需求,后者则更适合于行业的个性化需求。

但竞争也并非完全不存在,李惠科就认为,二者的服务范围会有交叉,但这种竞争不是坏事。

“任何一件事如果处在非竞争的环境中,也不会高速发展。我觉得大家是有竞争有合作,有互相促进,优势互补。”

李惠科表示,拥有互联网基因的第三方风控公司,既区别于大银行,又区别于相对封闭的互联网巨头,他们更擅长场景的接入,有更广泛开放的数据使用和风控经验,也有着更开放敏捷的互联网产品开发经验、更强的调整和纠错能力。

“这些厂商的技术积累也逐渐走向成熟,更容易满足中小银行这种高定制化的快速迭代需求。”

欧阳永明称,他们服务时推崇的定制化共建模式,不仅仅是交付一个模型、算法或解决方案,还包括过程中的共同运营、人员培养等方面,帮助银行建立和完善应对体系、逐步建设自身风控能力。

“这也是我们作为第三方风控公司的强生命力所在,基础建设方面其实不是我们想要去抢占的市场。”

雷锋网AI金融评论也在调研后发现,在为中小银行服务的过程中,第三方风控公司已经逐渐形成各自的服务“特色”

王诗强就告诉我们,中小银行在做联合贷助贷业务时,拥有巨大流量的互联网巨头,导流过来的很多借款客户,其实按照银行传统的风控模型,是很难通过审核的。

“相对来说,他们的风控标准过于严格,就会导致审批通过率很低,这对流量成本是巨大的浪费。”

因此,“拒客回捞”成为了冰鉴科技颇受欢迎的服务之一:

在已经被拒的客户中,他们帮助银行进行多个数据源分析,并通过联合建模改善其风控效率,重新筛选客户,将一些“误杀”的客户重新“捞”回来,可以很好地控制不良率,相应地降低了银行的获客成本。

不难看出,这样的“贴身服务”,是第三方风控公司与银行系科技子公司最大的差异所在。

如融慧金科也推出了拒件捞回,以及自主获客、全流程信贷赋能、定制化建模、渠道流量联合风控、存量客户激活等多种定制化解决方案,全程“白盒”交付。他们将这种区别于兜底式助贷的服务模式,称之为“辅助运营”(BOT)模式。

“辅助运营推出之后,我们也收到了挺多中小银行的咨询。”欧阳永明表示。

品钛则专攻小微企业信贷技术服务——小微企业也正是中小银行服务的主要客群。品钛通过输出线上化、数字化的智能信贷技术,协助银行完成金融活水向小微企业精准滴灌,既包含中小银行,也服务于国有大行等。

像邦盛科技这样的,服务主体多为大中型银行的风控公司,也同样有所贡献。雷锋网AI金融评论了解到,某国有银行的金融科技公司,就通过邦盛科技的技术,与央行做行业共享输出。

存量博弈阶段,资本重新入场

而在这场围绕中小银行独立风控的对话中,我们也发现,风控赛道已进入到独一无二的存量博弈阶段。

“市场剩下的玩家已经不多,留下的都是有一定实力的——经过市场的考验,这些存量玩家会有一定的认可度。”一位投资人告诉雷锋网AI金融评论。

纵观金融科技的细分赛道,风控可谓是诸多波折。

在互联网金融野蛮生长的早期阶段,P2P等业务火热,为不少风控公司留下宝贵数据积累,“大数据风控”“AI风控”风头一时无两。

但随之而来的监管,对风控赛道形成了多维打击。数据上,监管提出对大数据风控的审慎使用,集中打击爬虫等数据获取和处理手段;业务上,P2P从监管备案到彻底清退,互联网贷款也出台了更详细的监管条例。

“2020年下半年有许多监管草案和政策颁布。包括民间借贷利率上限、互联网贷款的资本杠杆限制、反垄断的相关规定及个人隐私数据保护等等。这些监管措施不仅导致了蚂蚁集团IPO延期,也令中国的金融科技投融资活动处于‘观望’的状态。”——毕马威报告

该投资人指出,虽然风控领域的投融资热度在强监管下降温不少,但这也正是存量玩家的机会。

熬过了P2P清退,说明业务能力没问题;扛过了监管筛选,说明合规上没问题;在围绕金融机构的一系列监管办法出台之后,还能活下来的,服务核心客户的水平可能也比较强。

硬币的正面是风声鹤唳,反面是天朗气清。对资本而言,此时战场已经清理完毕,正好适合重新入场。

从2020年第四季度到至今,风控领域已有多起投融资:

公司时间金额融资轮次投资方
冰鉴科技2020年11月2亿元C1轮上海国鑫创投领投
2021年4月2.28亿元C2轮国创中鼎领投
慧安金科2021年3月亿元级B轮融资中新嘉量基金领投
融慧金科2021年6月数千万美元B+轮优山资本领投

注:不完全统计

除上述投融资以外,雷锋网AI金融评论获悉,有头部风控企业已于近日完成新一轮股权融资,亟待官宣。

这场风暴中,看似是第三方风控公司要与互联网平台、银行系科技子公司同场竞技,压力不小,但眼下,其实正是他们厚积薄发、乘风加速的好时机。

而这多方力量究竟如何完成合理分工,顺利解开中小银行的独立风控困境,仍需时日考验。

封面图片来源:电影《烈火重案》

]]>
风控与安全 //www.drvow.com/category/DataSecurity /bg6Ibr7DESU2tqIL.html#comments Thu, 05 Aug 2021 18:45:00 +0800
今天,AI公司正在花式「伏击」羊毛党丨618 专题 //www.drvow.com/category/DataSecurity /A11MPFbErwbcGWsV.html

又是一年618,今年也和往常一样,有高举“不买立省100%”大旗的勤俭持家党,杀到眼红的剁手党,临时抱佛脚的抄作业党,以及,绝对不会迟到的羊毛党。

“薅羊毛”通常是针对企业优惠活动的一场围剿,黑产团伙从实名手机号,到接收验证码,注册平台账号,通过一些作弊手段,在平台大规模活动薅取利润。

虽然咱们普通消费者去领商家优惠券之类的行为,也算是薅羊毛,但一次领一张优惠券,和一口气领几百张优惠券的团伙作案,还是有着本质上的差别。羊毛党的专业度和努力度,不容小觑。

有反欺诈专家和我们吐槽说,“我国黑产技术领先世界”,可见斗争形势依然严峻,黑产攻防战常打常新。那么羊毛党们在今年的618又搞了什么新花招?提前几个月就在养精蓄锐,黑产都为这桩“大买卖”做了什么准备?今天就给大家讲讲最新战况。

现在流行怎么薅羊毛?

道高一尺魔高一丈,羊毛党的手段自然是跟着业务走,“贴身盯防”电商们的一举一动。小盾安全解决方案总监Coolor就告诉雷锋网,这两年最流行的薅羊毛手段,就是基于裂变式营销的作案方式。

裂变式营销,高大上点就叫MGM(member get member),其实大家都已经非常熟悉,像是各种邀请、分享、拼团购都算是裂变,具体方式包括但不限于分享微信链接、二维码、邀请码等,本质都是靠老用户拉新,裂变之后可以获得一定奖励。

经常被吐槽的拼多多“砍一刀”,就属于拼团裂变的一种。

我们把邀请别人的老用户称为“师傅”,被拉来的新用户称为“徒弟”。假设这个优惠获取的方式是,一个“师傅”拉到100个“徒弟”就可获得100元,那么专业的黑产通常会注册几十、甚至上百个“徒弟账号”去扫“师傅”的邀请码,自导自演一场戏,最后提走现金奖励。

而对付黑产的办法之一,就是顺藤摸瓜。Coolor举例解释称,哪怕不能找出所有的“徒弟”,但只要找到了一部分异常账号,发现他们用了同一个邀请码,就能反向通过邀请码向上找到那个“师傅”,把这群“师徒”全部连根拔起。

看到这里你可能会问:我们平时也会找亲朋好友帮自己“砍一刀”啊,他们怎么区分我们和黑产?

这就要提到一个比较有意思的技术了:设备指纹。

黑产的一些老套路,养号、群控、多开,其实大家都已经很熟悉了。就算现在是一人一个手机号,但市面上仍然存在一些手机卡商,干着手机号倒卖的活儿,黑产拿到号之后通过群控和猫池这样的设备一次操控多台手机,以及通过多开工具把App“复制粘贴”(类似于一台手机有三四个淘宝),缩短操作时间,降低投入成本——一人即是千军万马。

如果没法通过手机号分辨出手机背后是人是“鬼”,设备指纹技术就是另一个甄别黑产、判断用户情况的重要方式了。

设备指纹,顾名思义,就是像指纹那样,可以确定这台设备的唯一性。

就像你走在路上,有时候会遇到警察叔叔查一下你的身份证,电商其实也会查一下你的手机的“身份证”,看看你是不是新用户,再决定要不要把新用户奖励给你。

Coolor提到,黑产可以通过一些改机工具,把手机的设备指纹“换掉”,比如把自己从小米改成华为,伪装成一台新手机的身份去继续薅羊毛。

又或者是伪造某些系统底层参数(地理位置,imei号等),绕过业务的限制——和多开一样,本质上都是在提高有限资源的复用性。

而成熟的设备指纹技术,可以针对性地揪出常见的黑产改机框架、改机软件、伪装软件等,识别出设备所在的系统环境是否异常。

维择科技的技术客户经理周君桢补充称,这种误伤的可能性有,但几率会小很多,风控团队也会考量可能存在误伤的比例。

他指出,团伙作案一般会有比较明显的行为一致或相似,比如是通过机器等一些作弊工具批量操作、同一种行为模式,“从技术角度来看,就是某些维度特征的存在一致性。”

总的来说,大家还是可以放心地继续骚扰亲朋好友,让他们帮你“砍一刀”,风控系统一般是不会阻拦咱们这些普通用户的。

除此以外,真人众包也是近年来的热门薅羊毛方式。

周君桢介绍称,这是在固定的群体里发布平台有利可图的消息和教程,然后很快就有大批羊毛党账号去平台薅取利润,羊毛党的头头就可以给他们回收、变现,而平台很难在短时间有个快速响应。

“一旦平台有所响应,羊毛党就消停下来,继续研究新的攻击方式避免被平台识别,灵活度非常高。”周君桢说。

猖獗一如既往,悄然绕道东南亚

那今年618的羊毛党,和往年相比,还是这么猖獗吗?

“其实今年4月份的时候,黑产们已经在准备各种物料了。”Coolor透露。

一个完全没有操作纪录、像白纸一张的手机号或账号,其实是很容易引起风控系统的怀疑的,和小区保安看到进门的生面孔要盘问一下,是同一个道理。所以黑产要提前做准备,给这些新号攒一点看起来可信的历史记录,“混个脸熟”,尽量不引起系统的注意。

但也同样是在今年4月份开始,第二季度左右,Coolor表示,他们明显感知到了“断卡行动”带来的变化,“国内的黑卡在日益减少。”

“断卡行动”是去年10月开始的一场打击电信网络新型违法犯罪的活动,主要针对的是手机卡和银行卡。

大量“实名不实人”的银行卡、电话卡被黑产购买后实施诈骗,给警方的追查和打击带来巨大困难。斩断电话卡、银行卡的买卖链条,就等于给黑产“断奶”,买不到号自然也就无从养号,从源头遏制黑产诞生。

或许有朋友注意到,今年以来银行们集中清理睡眠账户,这样的举措也是为了防范电信诈骗、黑产和反洗钱等违法犯罪行为。

“断卡行动”的打击力度有多严格?举个例子,很多卡商是去找农村用户来注册手机号,或者是用一些小恩小惠吸引普通人把手机号租借给他们使用。一经查出,不单是这些非法倒卖手机号的卡商要被法律制裁,号主、卡主本人可能也要受到惩处:录入征信、不能用手机号、不能开新账户等

手机卡被公安机关认定为电信网络诈骗涉案电话号码,基础电信企业将按照公安机关要求关停名下登记的所有移动电话号码,且2年内限制办理新入网、过户业务。

银行卡对公安机关认定的出租、出借、出售银行账号或支付账户,实施5年内不得新开账户、暂停非柜面业务、支付账户所有业务的惩戒措施,同时纳入金融信用基础数据库管理,记录至个人征信。

插播:所以千万不要把电话卡、银行卡借/租给别人用!如果已经这么干了(……)请趁早主动去运营商、银行注销账户,以免酿成大祸被追责。

虽然“断卡行动”的严厉处罚确实给黑产带来不小的打击,但是,你有张良计,我有过墙梯。Coolor透露,黑产们已经盯上了东南亚这块未经开发的“宝地”。

因为不少电商也为自己定制了出海战略,目的地之一往往会有东南亚,金融和电商服务的低普及率意味着巨大的市场潜力。

但在黑产眼里,东南亚的法律法规限制并不完善,获取手机卡又不用实名,成本又低,所以黑产逐渐把手机卡的供货源挪向海外。“其实黑产还是同一批人,机器也是同一拨。”Coolor说。

他解释称,这些“新面孔”进来之后,反黑产的团队暂时是很难标记它们的,需要时间慢慢积累,等黑产拿这些新卡注册过几个网站,有了网络的踪迹,再联防联控布下天罗地网。

除此以外,也有海外电商被薅羊毛的案例。雷锋网去年就报道过,菲律宾排名第一的移动支付应用GCash,拿下了2000万注册用户和7.5万家商户,同样遭到了羊毛党的攻击,最后借助蚂蚁的反欺诈方案,将他们遭遇的营销作弊情况大幅降至1%以下。

风控与黑产们的“持久战”

设备指纹技术也好,断卡行动也罢,其实都只是庞大复杂的反欺诈流程中的一点细节。与黑产旷日持久的对攻战里,风控反欺诈团队们已经打造了一套行之有效的立体化“战术”。

我们从专家们那里了解到,打击羊毛党大致可以分为事前、事中和事后三大步骤。

1. 事前,一场情报战

Coolor透露,事前的准备,其实是以“情报获取”的运营工作为主。

例如深入到羊毛党的各大QQ群、论坛,国外的暗网和“飞机群”(即Telegram,无需实名的社交App)里“潜伏”,了解他们的一举一动。

其次就是“解密”,识别破解羊毛党的各种黑话,不然就算拿到情报也是枉然。比如用一手货、二手货来指代不同新鲜度的卡号,洗钱用“水房”来代替。

网上也有过不少羊毛党的黑话手册,通过拼音缩写、谐音和意会等方式生成黑话,大家可以测试看看自己的黑话了解程度:

砖行、小贱、老农、小昭、废行、猴子行、火鸡、葫芦娃、保护费

当然,这些黑话现在应该已经进化到了更高水平,需要更多的专家规则和经验在其中发挥识别作用。

情报指向的,很多是羊毛党的前期准备工作。

正如前文所述,这些羊毛党今年4月份就已经在着手准备,努力程度完全不输电商本商。电商们忙着做宣传物料、请明星办晚会、和品牌们谈优惠的时候,羊毛党在注册新号,逐步解决新号的实名认证和人脸核验等问题,和账号“供应商”交易。

基于这些情报,风控团队会针对性地收紧风控门槛,比如严防某些地区的IP,做到提前预防。

2. 事中,实时防护

实时防护的实时,可能是毫秒级的战斗,在那个注册键被按下的一瞬间,风控系统要在几十到几百毫秒内判断出账号的风险程度。

Coolor表示,这背后通常基于基础信息、终端状况和专家规则三个维度。

基础信息,一般是判断手机号和IP这些信息是否异常;

终端状况,即是感知手机、电脑等设备的风险,网络环境是否正常,判断有无使用群控、多开等工具;

专家规则,也包括AI的使用,通过一些算法和策略对用户行为进行评判。

例如:

  • 该IP是否被多人使用过?

  • 该手机号是否在不同设备上登录过?

  • 该账户的注册和活跃时间是否异常?总在深夜和凌晨出现的账号,要不要定义为异常?

此前曾有一位风控公司高管和雷锋网提起过一些十分有趣的专家规则制定,例如一个账号经常在后半夜购物,ta很有可能被判断为一个“缺乏自制力”的用户,从而认为ta“还款能力和还款意愿不高”。

而风险程度会通过打分卡、黑白灰名单等形式呈现,实时决定要不要对这个账号“高抬贵手”。

3. 事后,复盘、迭代和再战

但实时防护程度再高,其实也有许多事情无法在电光火石之间完成,需要积累一定的数据量才能解决。

例如当时只分辨出了十分之一的黑产,事后可以把全部用户重新分析一遍,查出哪些账号哪些具有相似的可疑特征,揪出黑产团伙,同时也把这次战果提炼出来,特征提取、迭代优化风控模型和策略,完善识图谱,继续投入下一轮战斗。

结语

在与众多风控专家们的交流中,他们都提到一点:与羊毛党对抗的核心,其实是成本对抗。

某种程度上来说,这是门槛叠加的过程,让黑产认为这笔买卖不划算,放弃围攻,而不是试图交出一张“100%安全”的答卷,挡住所有风险。

反过来,对于电商们来说,有时也会为了业绩和流量,放松风控的标准。风控体系的建设,归根结底,仍然与企业自身的发展阶段绑定最深。

和羊毛党的斗争,永远不会停止。

]]>
风控与安全 //www.drvow.com/category/DataSecurity /A11MPFbErwbcGWsV.html#comments Fri, 18 Jun 2021 19:12:00 +0800
「不务正业」的风控AI公司 //www.drvow.com/category/DataSecurity /1ABYDCqweDeCWR2B.html

“不务正业”这四个字,在金融行业,似乎一直是一种常态。 

过去是用资金撬动各行,现在是靠技术赋能万业。 

没有褒贬,没有边界。 

它或是一种跨界试水,亦或是一种降维攻击。在经营原有业务的同时,在另一片领域开天辟地。 

近些年,以金融风控为主营业务的技术公司跨界到政务、医疗、交通等领域,已不再是新鲜事。 

但业内人依旧有诸多不解: 

为何跨入自己不擅长的领域?

如何与老牌劲旅正面对抗?

怎样管理越来越多的行业事业部? 

带着这些问题,雷锋网《AI金融评论》采访了多家头部风控AI公司,道出跨界背后的所思所想。

一问:为何涉足非金融赛道? 

一投资人告诉雷锋网《AI金融评论》,风控AI企业拓展新领域,往往出于三方面的考虑: 

一是助推融资和IPO:本质上与京东金融、360金融更名为“XX数科”类似,跳出单个行业的限制,把自己定义为数字科技公司,而非金融科技公司。更利于融资和IPO。 

二是扩大业务营收额,这个很好理解。 

三是降低经营风险,金融这个行业,由于市场环境和监管政策多变,随时都在面临很多不确定性。多拓个行业,多条路。

业内人士透露:“总体而言,风控AI公司入局的这些行业,定制化较重,平均客单价也相对较高。有些ToG的项目,一个单子顶多个金融项目。” 

从头部风控AI公司同盾科技、冰鉴科技、邦盛科技入局的赛道可以发现:它们更多选择的是政务、军工、交通、医疗、安防等To G或市场化程度比较低的行业。 

“当前AI四小龙60%以上的收入都是来自安防,其实就可以说明一定的问题。而像手机、零售人脸识别等市场化的行业,纵使四小龙市场份额占有率不错,但实际上营收并不多。” 

除此之外,这些领域,客户一旦采购了供应商的产品后,很少会更换新系统,因此客户稳定性,也远胜于市场化的行业。 

“产品客单价高、客户稳定,公司的流水自然就稳了。”

冰鉴科技VP郭志攀也告诉雷锋网《AI金融评论》:冰鉴科技已经深耕金融领域多年,之所以拓展医疗、公安、政务三个新赛道,主要是两方面的原因:一是这些市场对AI的需求越来越大,二是他们付费能力,也在逐年上涨。 

逐渐把触角延伸至政企市场的同盾科技,其行业选择也瞄准了一些正在加大力度进行数字化转型的领域。 

同盾科技联合创始人、合伙人、CTO张新波告诉雷锋网《AI金融评论》,他们所服务的这些行业中,客户对智能分析决策的需求非常旺盛,因此,同盾所服务的行业也从最初的互联网安全,延伸到金融科技、保险科技和政企的数字化转型等等。 

另外,这些领域的需求本质是相通的。张新波认为,所有的商业甚至是政务,最终背后都需要一套分析和决策系统所支撑的智能辅助大脑。目前,智能分析决策在信用经济、企业数字化转型、智慧城市等领域正在发挥重要作用,这是同盾向这些领域拓展的技术逻辑。 

张新波进一步表示:“在同盾的大数据联结与赋能解决架构体系中,目前已拥有多个垂直领域的解决方案,包括城市金融大脑系统、中小微金融服务平台、智慧电力解决方案、智慧公安解决方案、区域企业运营监测、智慧高速解决方案、广电及运营商内容安全等,通过互联网技术赋能政务服务和企业监管等。” 

与此同时,邦盛科技也正在向政务、轨道交通、军工反恐、物联网等领域拓展。 

据邦盛科技介绍,其研发的流式大数据实时处理平台“流立方”,目前集群吞吐量少量节点即可达百万笔每秒,平均延时1毫秒。 

这样的数据处理能力,在其他行业均可以落地。

二问:如何拓展自己并不擅长的新赛道?  

多家企业告诉雷锋网《AI金融评论》,企业开拓新赛道会至少会遇到两只“拦路虎”:(1)是否有强大的行业关系网络;(2)是否有保障数据安全的能力。

“有时候,企业跟相关部门的关系有多好,拿到的单子可能就有多大。”某IT公司项目负责人一语道破了市场的局部现状。 

冰鉴科技VP郭志攀也谈到:“冰鉴科技拓新赛道,需要与该行业的资深人士搭建起强大的关系网络,这是最困难的地方。” 

为了解决这个困难,冰鉴科技等企业通常以子公司所在城市作为试点,与当地政府开展合作,利用AI技术解决政府社会治理中的棘手问题,后期再将这些成功经验复制到其他城市,以此解决关系先行的难题。 

除了行业关系情况,数据安全也是拓新赛道的一个难以回避的问题。 

尤其是政务相关的数据,对于安全性要求极高,且涉及到的数据非常庞大且多元。 

为了保障数据安全,同盾推出了“知识联邦平台”,保证数据“可用但不可见”,实现数据价值的挖掘和知识的流通。基于知识联邦技术,同盾做数据流通的连接器,让数据智能助力客户。 

推荐阅读:《同盾AI研究院深度学习首席专家李宏宇:解构知识联邦,开创数据“可用不可见”新局面》  

三问:行业高管增多,如何做好管理,建好组织文化? 

拓展新赛道后,引入这些行业的高管和团队,是件自然而然的事。 

通常情况下,企业会引入两类人才,以冰鉴科技的医疗业务为例,一类引入了医疗AI/IT公司(乙方)的高管,一类是引入医院、卫健委(甲方)的专家。 

来自不同行业的高管,思维逻辑、做事风格甚至对企业产品的理解都可能大相径庭。

对于管理者而言,如何对跨行业的高管进行管理,让他们尽快在思维上对齐,减少沟通成本,增加协同效应,成为了迫切需要解决的问题。 

和业内人士的交流来看,跨行业管理可以靠这四种方法:(1)要求应聘者招聘有互联网背景;(2)招聘的新业务员工人数在初期不能超过全体人员的10%;(3)设立委员会/不同事业部共同决策配合;(4)联合不同事业部完成共同的KPI。 

以冰鉴科技为例,要求应聘者曾有信息化或者互联网的背景,这一定程度能够减少新进人员对于互联网企业的不适。 

同时,冰鉴在新业务展开初期,会严格控制新业务员工的人数,新业务员工的人数与公司原有人员的比例控制在:1:9。 

这种比例的控制,既保证有新赛道资深人士的加入和领路,也能保证数量多的企业原有员工能够对新业务员工产生积极的互联网企业文化影响。 

为了进一步加强公司管理,调整组织架构也是企业常规手段之一。 

同盾科技建立了类似”军事决策委员会“的从上到下、从前到后的“铁三角”机制,以客户为中心共同挖掘商机,共同决策,满足客户需求。 

而冰鉴科技,将原来负责金融业务的人员单独设立为“金融事业群”。新领域诸如医疗、公安、政务则全部归纳到“创新业务事业群”,各自成立了“医疗小组”、“公安小组”、“政务小组”。当这个小组能够完成一定的KPI的时候,自动升级成单独的“事业群”。 

冰鉴科技VP郭志攀表示:为了增进协同,冰鉴科技也常常会设立一个共同的KPI,然后让两个不同小组的团队共同配合完成。 

例如,冰鉴科技的公安小组&金融小组曾经合作反洗钱的项目。公安小组需要帮助公安找到“反洗钱网络”,在找的过程中则需要金融小组的同事配合数据支持事宜。在项目配合完成的过程中,双方更容易磨合和加深感情,从而增进部门之间的协同。 

四问:何以PK原有赛道玩家+同业对手?

入局新赛道,风控公司难免遇到两波选手:一波是,长期深耕该领域的原有赛道资深玩家;另一波是,共同入局竞争同一块蛋糕的同业对手。

相比较原有赛道的玩家,金融风控公司入局时间较晚,缺乏对行业、业务以及圈层的经验。 

但是,这些领域给“金融风控跨界者们”留了两大空挡: 

一是原有赛道的IT公司,纵使经验丰富,但智能技术能力相对较弱,这为AI公司留下了不少市场空间。 

二是扎根在这一领域多年的新型AI公司,在个别领域(如医学AI市场)其营收非常有限,公司经营几乎靠融资支撑。 

而金融风控公司,在前期已经在金融行业实现了盈利,拥有更多的资金开拓市场。 

这两个空挡显现后,金融风控公司便相继入局。 

此外,金融风控公司已经在金融领域有非常丰富的行业及技术经验。 

那么,在开拓新行业的时候,也比原有赛道的玩家,更具有通过技术连接不同场景的优势。 

同盾科技联合创始人、合伙人、CTO张新波谈到:“同盾科技通过大数据架构和应用研发、分析决策能力,能够同时对接数据供给者多元化特点和满足数据需求者个性化的应用,拥有较好的生态位优势。” 

以同盾科技携手唐山市共同打造的“唐山中小企业综合金融服务平台”为例:

同盾科技把金融客户和政务客户的需求连接起来,通过对银行、政府机构内外部数据进行融合、加工、挖掘、建模和关联性分析,架起政府部门、金融机构、中小微企业等多方沟通的桥梁,有效打通了银企资金融通堵点痛点断点,发挥了金融支持实体经济的作用。 

冰鉴科技VP郭志攀也表示:冰鉴科技能够将运用金融大数据与政务部门/公安部门合作,为他们赋能,迅速产生利润,这些都是原有赛道玩家做不到的。 

由此可见,风控AI公司PK原有赛道的选手优势在于:前期已经积累了较为深厚的经济基础,所以能够支撑其拓展更多的市场。同时,大部分风控AI公司已经在金融的赛道上形成一定的规模,因此能够有成功的行业经验可复制。 

对于同业对手的PK,不同风控AI公司则各具特色,各有千秋。 

在政企领域,同盾科技始终致力于公共数据开发共享,努力成为面向政府和企业应用领域杰出的数据联结者和赋能者,并基于自主研发的知识联邦技术,在保证不同机构间数据“不流通”的前提下,实现“信用”和“信任”的流通,进行价值挖掘和数据资产的管理。 

同盾科技联合创始人、合伙人、CTO张新波介绍,基于该技术生态,同盾目前已经在中小微企业金融服务、区域经济和企业运行监测及分析、智慧高速等场景为不同政企客户落地服务。 

冰鉴科技VP郭志攀提到:”冰鉴长期深耕技术领域,对技术理解和运用很突出,且不依赖于自有数据。根据过往中标率,冰鉴科技的在金融行业的中标率高达90%以上。” 

冰鉴推出的智能AI中台,运用大数据、云计算、知识图谱等人工智能技术,与应用场景紧密结合,为银行、政府、安防等各类机构提供全流程的解决方案,赋能机构实现风险管控和降本增效,以科技驱动数字化转型。 

其实,每一家企业都有专注擅长的根据地。 

在技术、资源等因素有剩余的情况下,风控AI公司“跨界”布局新业务似乎是顺利成章的事情。 

未来也许会有越来越多的风控AI公司将原行业的成功经验复制到其他赛道。 

但是,这种“跨界”尝试是否意味着金融风控赛道的竞争已经白热化,利润增长缓慢? 

风控AI公司的“跨界”又是否能够使其业务的增长量变大,利润持续增加? 

这些问题都有待“跨界”的风控AI公司未来交出的答卷来解答。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /1ABYDCqweDeCWR2B.html#comments Wed, 16 Jun 2021 10:24:00 +0800
《数据安全法》背后:聚光灯、新风口与蜀道难 //www.drvow.com/category/DataSecurity /oajAtzyY7QkBTCY0.html

所有金融机构、互联网公司和数据技术服务商共同关心的《数据安全法》,近日正式表决通过,今年9月1日开始施行。去年7月和今年4月,全国人大常委对该法草案进行了首次和二次审议。

数据被认为是继土地、劳动力、资本、技术之后的第五种生产要素。在数据问题上,任何一点细微的处理不当,都会牵一发而动全身,因此这部法律的关注度,说是近几年各类法案中的“顶流”也不为过。

这部法案中,到底哪一点最受到大家关注?数据领域千头万绪,什么环节最让人头疼?随着数据监管逐渐到位,新的市场机遇和技术方向是否已经浮现?

数据分类分级,为什么最受关注?

业界讨论里,出镜率最高的一项条款,必然是法案首次提出的数据分级分类:

建立数据分类分级保护制度,对数据实行分类分级保护;并基于数据分类分级确定重要数据目录和国家核心数据,进行重点保护。——《数据安全法》第二十一条

为何这一点会受到最多关注?无论手握多少数据,对外开放交流的“沟通成本”,对内的“管理成本”,几乎是所有机构最在意的事情。

一位隐私计算领域的业内人士指出,分类分级之后,各方才能更容易确定可分享的数据部分,在完全开放和完全不开放之间寻求平衡。数据如果不做分类分级,在政务、金融这类更加传统严谨的领域,为求安全,机构往往会采取一刀切的“闭关”形式,数据的交流合作也就无从谈起。

而在机构内部,深信服数据安全产品线总经理李玉亮就向雷锋网AI金融评论透露,“从以往的合作方反馈来看,他们也比较关心数据分类分级的落地。”

他认为,目前企业和组织里的数据规模巨大,但当前数据分类分级的主要方式是人工和基于正则表达式的工具,效率和准确性都较低,企业自身也希望拥有更加自动化的数据分类分级工具。

腾讯安全的数据安全专家崔卓也分析称,对于企业经营人员和安全管理人员来讲,首先要做好数据资产盘点和数据分类分级工作,需要知道企业当前敏感数据分布以及数据安全现状,包括数据类型、风险级别如何、当前安全能力等方面。

不过具体应该如何分类分级,什么才是“重要数据”,现行法案都尚未有明确规定。结合《数据安全法》以及此前发布的多个相关文件来看,“重要数据”这个词似乎更多出于国家安全层面的考量。

《数据安全法》中,只注明了主要标准是“数据在经济社会发展中的重要程度、以及一旦遭到篡改、破坏或者非法获取、非法利用,对国家安全、公共利益或者公民、组织合法权益造成的危害程度”,强调“关系国家安全、国民经济命脉、重要民生、重大公共利益等数据属于国家核心数据。”

而《数据安全管理办法(征求意见稿)》给出的措辞相对具体一些,称重要数据指的是“一旦泄露可能直接影响国家安全、经济安全、社会稳定、公共健康和安全的数据,如未公开的政府信息,大面积人口、基因健康、地理、矿产资源等。”

但这个意见稿也指出,重要数据一般不包括企业生产经营和内部管理信息、个人信息等,这个标准是否会被沿用到此后的数据安全领域,也有待观察。

另一个受到各方关注的重点,则是数据流转的监测和溯源

“由于当前国家正在推动数据的开放共享,所以组织内部或者跨组织、地区之间的数据流转非常频繁,所以存在巨大的数据泄露风险,并且泄露之后无法很好溯源。”李玉亮分析称。

对于企业而言,数据安全保护义务的规定,也同样是他们十分关心的问题。

《数据安全法》的第四章,详细规定了开展数据处理活动需要承担的数据安全保护义务,包括要明确数据安全负责人、建立健全全流程数据安全保护制度、加强风险监测、定期开展风险评估以及在跨境数据流通、数据交易和数据调取方面需要承担的义务等。

多位法律界人士也指出,针对这些详细的合规措施,构建自身的合规体系,将是企业们迫在眉睫的数据任务。

数据确权,难中之最?

《数据安全法》在界定“数据处理”时,也覆盖了数据的全生命周期,包括数据的确权、收集、存储、使用、加工、传输、提供、公开等环节,不过尚无对各个环节未有深入的处理细则。

而所有环节之中,数据确权可能是任务最艰巨、优先级最高的一环。

“银行对数据确权这方面比较谨慎。”一位来自国有大行科技子公司的业内人士,就向AI金融评论强调了这一点。

“因为数据确权是非常复杂的系统性工程,所以《数据安全法》也没有对于数据确权进行明确的规定。”李玉亮也表示,确权应该是目前难度最大的一项。

他指出,从目前来看,数据确权的难度最大——如果数据确权没有完成,后续的数据要素流转就无法很好进行,就无法发挥出来数据要素的价值,数字经济的发展就会受到限制。

而华控清交CEO张旭东此前也向雷锋网AI金融评论提到这样一个观点:

过早、过严、过窄地定义和规定数据的所有权,在法律上可能会制约数据产业和数据生态的发展。

“数据确权的难处,只能点到为止。”他认为,交易和流通需要生态,其中更重要的是,需要数据和资本的结合,才能使数据的交易流通、要素化大规模发展。

也有相关从业者透露了自己的担忧:从确权环节就开始产生的限制,会拖慢业务创新、企业发展的步伐。

“或许这也是为什么近年来国外不再有新的互联网巨头出现。”

张旭东进一步提到,在数据确权相关法律法规还不健全的情况下,是否能让数据进行先期的交易和流通,反过来为数据的确权真正提供有益的实践和探索?

但数据交易的落地同样进展缓慢。数据作为生产要素的特殊性,使得局面陷入泥淖。

“数据的复制成本极低,复制和传播速度也极快;一旦被看见,就可以被无限复制。

“而在简单的经典经济学理论上,供需要有两根曲线相交,才能形成价格。明文数据的特点,使得它的供应和需求都是无限的,供应和需求两根线无法形成一个焦点,很难通过市场供需进行定价,并形成大规模的市场交易流通。”张旭东解释。

这种情形之下,数据拥有方往往缺乏主动发起交易的动力,手握数据而态度保守。

尽管国内目前已有三十多家数据交易中心或交易所,但就发展情况而言,这些交易所也很难不被质疑只是“摆设”。

新的风口已经出现

《数据安全法》的出台,其实不只意味着数据领域的监管趋严,在“牢笼”的形态之外,法案也在加速了新风口的诞生,更多前沿技术投入到数据领域的使用。

前述国有大行科技子公司人士强调,最值得关注的市场机遇,一定是MPC(多方安全计算)和联邦学习。“未来这会都是机构的基础设施,是数据流转的标配。”他强调。

李玉亮也表示,隐私计算技术能够实现“数据可用不可见”,典型的技术包括全同态加密、多方安全计算和联邦学习等,能够实现数据在流通过程中的安全,可以大大促进数据的流转和交易。

“不可见是为了数据真正的安全,保证数据不被篡改,不被窃取,承担起信息的存储职能;可用则是为了承担起数据流转的职能。”该业内人士分析称。

隐私计算,包括联邦学习、多方安全计算等技术,在去年突然走红,很大程度上就与当时《数据安全法》草案以及其他隐私保护相关条例有关。在《数据安全法》通过之后,这些新技术相信会进入飞速发展、跑马圈地的阶段,离规模化、商业化落地的目标更近一步。

不过该业内人士也指出,对于隐私计算,银行科技部门还处于初步探索期,工程学上还需要验证,想要正式投产还需要至少一年时间。

而人工智能在数据开发利用和数据安全方向,仍然是不可缺席的“一员大将”。

李玉亮向AI金融评论透露,提高数据分类分级的效率和准确性方面,人工智能和机器学习潜力巨大;深信服也在业界率先推出了基于人工和机器学习的智能数据分类分级平台。

除此之外,区块链和智能合约也是备受看好的技术方向之一。

该银行业内人士表示,信息在流转过程中,要尽可能透明化,同时要保证对客户本人、行为数据存储机构的支付,还有交易记录流转、数据信息利用的效用反馈数据等,智能合约会是兼顾这几大问题的有效手段。

尽管各项执行细则和标准设置得不够具体,但在不少业界人士看来,作为数据安全领域的上位法,《数据安全法》对于数据安全的基本制度、保护义务和责任已经有了比较清晰的规定。各部门随后将出台配套政策,使法律执行更加清晰,降低执行难度。

在期待更多配套法案出台的同时,前沿技术也正在金融、医疗等领域用于数据安全和隐私保护。雷锋网AI金融评论就曾多次详细报道联邦学习等隐私计算技术,多位专家学者也曾与我们以公开课形式深入探讨这一热门技术的研究成果和落地情况,部分精华内容一并整理在本文最后,以飨读者。


]]>
风控与安全 //www.drvow.com/category/DataSecurity /oajAtzyY7QkBTCY0.html#comments Sun, 13 Jun 2021 16:40:00 +0800
对话腾讯安全李超:如何打造银行零售信贷风控「特种部队」? //www.drvow.com/category/DataSecurity /OOTWlKs6H4zHyyJO.html

很多人还没有意识到,“识时务”是一个优秀的智能风控解决方案,必须具备的自我素养。

在风控战场上赢到最后的,必然是那些清晰认识自身和外界,有着发达“感官”,能够迅速摸清战局并自我调整的战队。

“风险决策不是非黑即白,一定是根据对风险的精准量化,对当前大环境的判断,对不同的时间点和状况,不断进行调整。”在腾讯天御反欺诈见过无数黑灰产攻防战的李超这样感慨。

这位曾被行业顶会MICCAI被提名为年轻科学家的博士,三年前就加入腾讯安全团队,着手研发星云风控解决方案,“杀入”金融风控的战场。

这一解决方案的内核,是团队精心打造的T-Sec星云风控平台,腾讯安全天御依托这一平台,成功帮助银行处理了上亿用户的信贷服务,累计守护资金安全超万亿。

在与李超博士的对话中,我们发现,在金融风控需求多样化、解决方案却同质化的今天,从腾讯二十年反欺诈经验中破土而出的星云,它背后的风控理念,其实极具借鉴意义。这支风控“特种部队”自身的成长轨迹和服务经历,也正是互联网信贷近年来变迁演化的缩影。

李超,腾讯安全金融风控技术总监、首席科学家

目标:从“人有我有”到“我有人无”

星云风控解决方案的雏形生于2017年底,正是互联网信贷发展如火如荼之时,李超和团队迅速注意到了银行发展数字零售信贷的业务需求。

星云的诞生,就是为了帮助银行构建一套自主可控的互联网信贷风控体系。

李超告诉雷锋网AI金融评论,这一目标从未变过,但星云的具体规划,在这三四年时间里,确实有过路线调整。

早期的星云方案,更具有标准化色彩,“可以帮助银行快速构建一套‘人有我有’的系统,在市场迁移的大趋势下,抓住发展线上信贷的机会。”

星云的“内部构造”中,就有风险评分类SaaS服务,和数字化风控PaaS平台,方案打通数据采集、数据清洗、特征加工、规则模型、顶层场景的各个模块,整体以一站式、端到端的设计,协助银行迅速完成业务构建。

随着时间推移,互联网信贷赛道已经变成了充分竞争的市场,入局者众,这时如何充分发挥定制化能力,帮助银行形成更强的差异化竞争优势,从中脱颖而出,就成为了星云新的头号任务。

考虑到风控场景的复杂、多样性,在标准产品方案之外,腾讯安全天御也会让风控专家为客户提供风控场景的咨询和服务,定向输出一批定制化方案。

风控SaaS服务也会通过隐私计算技术进行定制建模,将腾讯系统的黑产对抗感知能力和客户的场景进行深度融合,形成针对性的精准风险量化评估。

时间,风控的最大变数

不过,要提升银行的风控“即战力”,业界往往会讨论起模型准确性、算法先进性,但这未免太过偏颇,就如同战场上绝不可能纯靠一支八倍镜就锁定胜局。

时间,可能才是这场战事里的最大变数。

纵观互联网信贷的发展历程,起初,时间的重要性更多体现在传统线下信贷业务向线上跃迁,借助AI的力量从人工审批进化到实时秒批秒贷。

而现在,这种争分夺秒更指向动态风险管理的概念,“识时务”才是一个优秀风控解决方案应有的素质。

“风险决策不是非黑即白,一定是根据对风险的精准量化,对当前大环境的判断,对不同的时间点和状况,不断进行调整。”

“也就是能够及时感知到风险的变化和差异,并且做出相应的决策,包括进件个体、自身大盘、不同渠道的风险,以及宏观环境和经济形势的变化。”李超这样解释动态风险管理。

他进一步指出,在新兴互联网业务中,黑产极其活跃,如果没有完善的监控告警机制,没有及时感知和响应重大风险,对新业务的打击可能是毁灭性的。

这也正是为什么在星云风控平台身上,对实时、即时、及时的重视,随处可见。华夏银行也曾表示,在与腾讯安全天御合作的过程中,对风险提前感知的场景,给他们留下了深刻印象。

雷锋网AI金融评论注意到,星云将流式计算应用于特征加工和实时决策等环节,从而能支持灵活配置风控策略与决策流,实时响应业务风控政策的变迁,也可以根据实际业务场景、地域分布等限定条件灵活部署。

流式计算等技术的采用,通常被认为能够打破时间窗口的限制,实时性是其最大优势,这也意味着星云在面对最近一段时间诞生的“新数据”时,快速处理和分析的能力都大大提升。

李超透露,目前的星云方案可以让所有业务之间的通信,都经过流式计算处理后的信息流,保证可以360°感知业务风险全貌。

同时,也可以基于这样的信息流,构建实时风控数据报表。以往的报表呈现,需要先线下完成数据的抽取和整理,现在可以通过实时构建的报表,直接感知到数分钟甚至几秒钟前的最新业务情况。

不过李超也指出,数据处理实时性的提升,也意味着对资源消耗、数据容量的考验,如果把较长时间的数据都入流计算,反而会大大影响系统整体效率、成本相应增加。

因此,团队采用了“大小窗”的方式,例如将数天之前的“旧数据”预加载好,“新数据”采用流式计算处理,充分发挥实时处理和离线处理的各自优势,让整个风控体系的效率再进一步。

此外,星云平台也支持在线模型的部署、名单管理,变量中心具备数据可视化进行自定义二次加工能力,衍生丰富的特征;策略、模型和变量也可以完成在线更新,无需下线之后再发布,种种细节保证银行风控尽可能跟上信贷展业的脚步。

还有什么让星云“脱颖而出”?

真正把星云与市面上常见的风控解决方案区分开来的,其实不只对时间的“敏锐”这一特点。

李超就表示,腾讯安全天御的风控反欺诈“作战经验”,为星云提供了不小的先发优势。

网络黑灰产是所有线上业务最大的风险来源,目前中国的网络黑产从业人员有近200万,与黑产对抗需要专业的对抗能力和技术体系。

过去二十余年中,腾讯一直服务于互联网行业,作为与黑产对抗的排头兵,沉淀出了一支专业的黑产挖掘对抗团队和一套完善的黑产手法分析,情报收集,和实时感知检测的体系。这些能力是保障星云业务能够健康增长的坚实根基。

同时,风控建设很多时候牵扯到银行数字化转型的整体规划,此时腾讯云在技术生态和产品体系上的完善就显得格外重要。

李超透露,他们与客户之间不只是信贷风控上的合作,在营销风控,身份安全,以及至获客方面,腾讯云都有成熟完整的方案。

不仅如此,针对目前很多银行整体零售数字化转型,腾讯云的TCE全栈专有云,或是企业级分布式数据库TDSQL等基础能力,能满足银行全方位的需求。

比起单一的风控方案输出,星云携“配套设施”而来,为银行带来腾讯在大规模互联网业务方面的深厚IT积累,也让银行的风控体系能在更“熟悉”的土壤之上顺利长成。

近年来备受关注的隐私计算技术,也被嵌在了星云深处。这一前沿技术让团队在服务银行时,可以更及时完成风险决策的定制化,多方数据也有机会在此兼容、发挥共同价值。

腾讯安全其实早已开展相关技术研发,去年就上线过联邦学习的应用,主要用于银行信用卡反欺诈等场景,李超也曾做客雷锋网AI金融评论主办的联邦学习公开课,详细解读联邦学习+金融风控的运用逻辑。他表示,当团队需要与银行进行深度模型定制,但银行数据又不轻易出本地,这正是联邦学习的“用武之地”。

李超还告诉AI金融评论,具有丰富风控经验的金融行业专家资源,是星云的必备配置;在服务众多客户之后,团队也形成了独有的“更广阔的横向视角”,对行业最新趋势感知及时,某种程度上也使得星云具备了“联防联控”的效果。

值得一提的是,有时技术服务商给出的解决方案,核心部分采用黑盒模式交付,但银行对此很难放心。

加上监管层一直强调银行独立风控的重要性,保证银行对风控体系的“自主可控”,也就成为了风控服务商们的“必修课”。

李超表示,腾讯安全天御团队会将所提供的服务,源码开放给客户方,所有基于服务开发的策略都是透明可查,很多客户也在与腾讯的合作中,逐渐搭建起了自己的风控团队和风险管理能力,成为行内的宝贵资产。

  • 场景:不只是借贷风控

目前,星云不光应用于借贷风控和交易风控两大常见场景,还能用于智能风险管控中台这一场景。

为何一个风控平台却要以中台的形式呈现?二者的区别何在?李超解释称,星云本身是更垂直的解决方案,针对零售信贷业务而生,但并不是只能用于信贷,风控能力同样可以“复制粘贴”到其他场景。

而风控中台更多是横向“贯穿”银行各个业务和场景,从过去以账户中心的风险管理,转变为以用户为中心的风险管理,形成顶层设计,统一视角,协同防护的能力。

他指出,部分银行其实已经陆续做过一些数字化风控建设,但往往是“烟囱式建筑”,他们迫切需要将烟囱之间串联起来,中台正好能协助原有的“建筑”变成稳固的“地基”。这种先横向构建、再基于中台做业务搭建,也是很多规模较大的城商行的首选。

今后,星云也会在银行的运营、营销等多个金融服务环节中发光发热。AI金融评论此前也曾报道,腾讯安全天御已经在营销风控领域有所收获,其风控能力帮助某股份制银行开展营销活动,精准识别和打击黑产,识别恶意率高达99%以上,确保银行的营销资源没有被黑产套利,而是被精准投射到客户手中。

(推荐阅读:《和欧美老牌风控巨头齐名,腾讯安全天御做对了什么?》

定位、适配、稳定性、冷启动……那些待解的风控难题

跳出星云,我们也与李超深入讨论了风险管理一个永恒的命题:

风控与业务增长、与用户体验,怎么平衡天平的两端?

李超分析称,很多银行做传统线下业务的时候,流量成本是忽略不计的,通常只是计算门店的运营成本,银行可以优中选优,精选最放心的客群来做业务。

但在线上化、数字化的时代,获客成本、风控和业务增长之间的矛盾,被更具体地量化和放大,“如果再用粗放式手法挑选客户,实际上是对营销成本的巨大浪费,导致业务无法生成一个清晰可行的盈利模型。”李超说。

如何平衡,其实没有唯一答案,只有适合自己的最优解。

在他看来,想要端稳这碗水,核心在于风险策略的选择上,也在于风险量化的能力上,在于能否找准自家产品的风险定位,能否认清当前业务的风险水位。

一套风控决策流程也非常体现行业知识的积累,基于对风险的精准判断来给出差异化的动态决策。星云的设计思路和技术细节,也正蕴含了这些风险理念。

而对于智能风控的趋势,李超也给出了他的详细观点:

第一,在样本量有限的情况下如何保证风控模型的稳定性,将会是需要持续加强的技术问题。

他指出,信贷业务场景中,收集样本的周期非常漫长,尤其是在银行这样的传统金融机构,风险偏好更趋保守,更不可能大规模收集坏样本,但样本量不足又会影响风控建模的效果,因此迁移学习等技术,将会是弥补样本量不足的重要手段之一。

第二,则是前文所述的动态风险管理问题,借助技术手段提高风控模型与业务、与行业的适配性

第三,正如星云对联邦学习的采用,隐私计算在风控中的应用将会愈加广泛,让模型持续更新,保证风控评分的提供方与业务方之间有良好的联动。

李超同时还强调,零启动/冷启动是信贷风控中普遍存在的问题。

他表示,信贷业务场景中,收集样本的周期非常漫长,尤其是在银行这样的传统金融机构,风险偏好更趋保守,更不可能大规模收集坏样本,但样本量不足又会影响风控建模的效果,因此迁移学习等技术,将会是弥补样本量不足的重要手段之一。

结语

回过头看,互联网金融“大爆炸”的时代,也是大数据风控茁壮发展的时代。

但巨大流量带来的高速增长的业绩,将金融服务粗放式经营的“顽疾”掩盖。金融人往往手握大量数据、规则和算法,却没有读懂真正的风险管理。

机构很多时候不够实时了解客户,也没有找到风险与回报的平衡点,以为数据量越多、维度越全,就是更好的数据,就能实现最好的风控效果。

如今互联网金融业务经历一轮接一轮的强监管,持牌金融机构也要面临合规治理,创新金融业务的风险亟待出清,利用技术手段协助机构达到金融风控的合规性,提升自动化、专业性、时效性、包容性、协调性,必然成为后续智能风控的主题。

而星云也正如它的名字一样,在腾讯庞大完备的技术生态和天御的反欺诈经验中“凝聚成云”,见证过互联网信贷与大数据风控的起起落落。这样一支“特种部队”,在金融科技强监管的时代里,还能为银行们带来怎样的风控成绩?我们静候其变。

封面图片来源:电影《拆弹专家2》

]]>
风控与安全 //www.drvow.com/category/DataSecurity /OOTWlKs6H4zHyyJO.html#comments Mon, 31 May 2021 16:30:00 +0800
拧巴的征信巨头益博睿:前脚要「退出中国」,后脚引入「新总裁」 //www.drvow.com/category/DataSecurity /3LEoKNW2r7hx6TcR.html

今日,全球最大的征信公司益博睿,宣布任命刘雪斌担任其大中华区执行总裁。

刘雪斌拥有25年的银行从业经历,在加入益博睿前,刘雪斌曾担任美国银行的中国区董事总经理兼企业银行及金融机构部联席总裁。在加入美国银行之前,刘雪斌曾担任澳新银行北京分行行长。

半年前,曾考虑退出中国市场

然而,在新官上任的前半年,却有消息称,益博睿考虑退出中国内地市场。

对此,业内人士认为:“益博睿之所以考虑退出中国市场,本质还是一种市场行为。益博睿低迷的各种财务(收入、盈利等)指标,直接展现出其原因——经营不佳。

其实,早在16年前,益博睿就已经进军中国市场。

益博睿在华主要开展四大块业务:企业征信、决策分析、反欺诈和身份认证、精准营销和数据质量。益博睿在中国更关注的是企业征信这块的业务。

然而,近年来,从事企业征信的公司数量众多,竞争较以前更加激烈,不像以前全国只有几家机构,益博睿原有的中国市场持续被分割。

企业征信当前更加依赖大数据征信技术及产业链、生态圈内生数据,传统的企业信息收集方式已经不适应现阶段的需求,创新性信用服务模式不断出现,更适应市场需求。

同时,部分企业还存在数据垄断现象。部分重要企业数据(如税收、发票经营数据、工商数据)均由相关企业或行政管理部门指定企业垄断经营。

另外,征信法规越来越健全,数据采集与使用要求变得比过往更加严格规范。

在上述方面,益博睿都不存在明显优势,个别地方甚至明显有差距。

除了企业征信业务,不得不提的是,益博睿的个人征信业务。其个人征信业务在全球市场中位列第一,是其最具有商业价值的核心优势业务。

但在开展个人征信业务方面,目前中国只有百行征信和朴道征信拥有合法牌照,没有牌照的益博睿在中国想发挥优势,大伸拳脚,这是有一定困难的。

业内人士透露:“益博睿做过很多监管层的工作,政府关系疏通也不错,无奈个人征信数据太敏感,很难向外资企业开放。”

2020年新冠疫情的冲击,让原本对于益博睿就不那么友好的商业环境更加雪上加霜。

加上外企高额的人力成本,高层频繁的流动,本地化的失败...等各种理由,似乎都加速了益博睿退出中国市场的决心。

海外信用科技公司如何稳住中国市场

同样,外资企业在华难以开展信用科技业务的不仅是益博睿一家,被称风控黄埔军校的FICO也似乎遇到了相同的问题。

不同的是,FICO并未考虑过退出中国市场,而是在去年12月宣布与联合国内知名AI金融企业“睿智科技”,成立合资机构:费埃哲睿智信息技术(北京)有限公司。

FICO官方宣称,这是FICO在中国从事和开展新业务的主要方式。

此次合作,一方面,睿智在中国其与FICO大数据评分业务为独家合作,国内金融机构若想要合作FICO评分,需要通过睿智科技。

另一方面,睿智科技在国内整合了包括个人诸多行为特征在内的大量数据资源,FICO为其提供技术支撑和信用背书。

业内人士称:“此次成立合资公司,于双方而言,是一门双赢的生意。”

对睿智科技来说,其核心竞争力得以进一步加强,对FICO而言,则有助于在中国市场站稳脚。

从去年益博睿退出中国市场,以及FICO&睿智科技合作,两个事情都反映了外资企业要在中国开展信贷信用科技业务,还是相对有挑战性的。

它们有的像益博睿考虑退出中国市场,有的像FICO寻求与本土的科技企业合作,从而便于拓展中国业务。

戏剧反转,在华深耕的路在何方

反转的是,考虑退出中国市场的益博睿突然改变了主意。

去年12月,益博睿表示:已经与中国人民银行和北京市地方金融监督管理局以及公司员工和客户展开了积极的跟进讨论,各方均表示支持益博睿继续在中国大陆市场开展企业征信和决策分析业务。

此外,益博睿称将持续为中国大陆的所有客户提供企业征信和决策分析业务。益博睿现有客户包括中国十大银行,以及来自电商、零售、技术、汽车、酒店、媒体、电信、金融、支付和公共部门等领域的企业。

就在益博睿宣布继续在中国开展业务后,不到2个月的时间,益博睿大中华区原CEO黄坚,辞任后出任苏宁金融副总裁,负责金融科技业务。

益博睿从一开始被传要退出中国市场,到后来官宣继续经营中国市场,再到原大中华区CEO黄坚闪电离职,颇有戏剧性。

未来,有了新中国区总裁的益博睿在华将如何继续开展业务?如何拓展更多的中国市场?诸如益博睿的外资企业又如何能够在中国开拓创新?这些都是外资企业值得考量的问题。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /3LEoKNW2r7hx6TcR.html#comments Sun, 30 May 2021 11:13:00 +0800
专家观点丨大银行「不配」帮中小银行做风控吗? //www.drvow.com/category/DataSecurity /IX4FYDjsMpMkKCfz.html

这是一场意料之中的风暴,大型银行、中小银行、互联网平台与第三方风控企业,四方被裹挟其中。

尽管在今年的工作会议,银保监会才首次提出“要推动大型银行向中小银行输出风控工具和技术”,但在这之前,业内早已有此风向——只是到了今年,中小银行独立风控困境背后的种种微妙,终于更脉络分明地呈现于台前。

于中小银行而言,在失去互联网平台的流量和风控能力加持后,他们试图找到新的借力点,冲破存贷双杀的局面。

于大型银行而言,监管所鼓励的大行向中小银行输出风控,表面上的“两情相悦”,实际上却可能是“一厢情愿”。

于第三方风控企业而言,在遭遇大数据强监管和P2P彻底清退之后,他们又要正面“迎战”银行系金融科技子公司,这条成熟的赛道似乎已经进入到存量博弈的阶段,格局悄然生变。

在与近十家企业和金融机构对话后,我们试图以大型银行与中小银行、第三方风控企业与银行两大关系切入,观察各方如何角力,从不同的角度重绘这场风暴的云系。

中小银行:当实力有限却被寄予厚望

银行独立风控的监管要求其实早已有之,但中小银行的风控处境,可能比你想象的要更进退两难。

多位风控业内人士都感慨,和大型银行相比,从资金、人才、技术、展业范围等方面来看,中小银行属于先天不足,风险管理能力本就薄弱,容易产生风险积累,自建风控体系的成本也并非中小银行可负担。

品钛CEO李惠科向AI金融评论指出,目前大多数中小银行还在通过线下考察的形式,进行小微信贷业务的授信评估,从贷前反欺诈、贷中预警到贷后管理,如何实现线上化、自动化,提高服务效率,也是中小银行面临的主要挑战之一。

但就是这样先天不足的中小银行,在鼓励普惠金融,鼓励银行缓解小微企业融资难、提供差异化金融服务的大环境里,被寄予了与自身实力并不匹配的厚望。

李惠科强调,“金融活水要向小微企业精准滴灌的需求,在疫情纾困的大前提下变得更为迫切,而小微企业也正是中小银行服务的主要客群,当小微企业自身经营不够规范、数据不够完善,中小银行的风控管理难度也相应增加。”

而信贷业内有一种说法叫做“掐尖”

“因为大行的利率和资金成本相对更低,那些资质好的客户,更容易被国有行或股份行的地方分行掐走,剩下的客户相对资质就差一些。”冰鉴科技研究院高级研究员王诗强向AI金融评论解释道。

“可中小银行的定位又是要服务本地客户——被‘掐尖’之后的本地好企业又有多少?”

再看回监管层对中小银行是如何定调的:

保监会首席风险官、新闻发言人肖远企:中小银行、地区性银行原则上只能够在本地发展,聚焦小微企业和“三农”以及个人金融服务,满足当地企业和居民的金融需求。

此前监管层也多次强调“严控跨地域经营”,可见未来城商行、农商行势必要巩固地区性差异化发展思路。

地域性是中小银行的特色,外界也期待着他们能充分发挥自身优势,但他们的风控实力,足够应对这些资质欠奉的客户吗?

同时,中小银行还面临着大行和互联网巨头的双重威胁。

李惠科表示,大行加大科技投入、业务下沉,互联网巨头也不断推出创新型竞争性业务,使得中小银行原本的地域优势在竞争中不断被削弱。

中小银行一度将求助之手伸向了互联网平台,意图借此冲破地域限制,部分玩家近年来也出现了激进追求业绩的情况,风险事件频发。

邦盛科技首席产品官王雷分析称,前几年互联网金融较为火热之时,部分中小银行在与互联网平台助贷的业务过程中,过分依赖对方的流量和风控能力,自主风控能力较弱,可能会给银行带来更大的信贷欺诈风险和信用风险。

在这样的前提下,监管层以去年发布的互联网贷款新规,再次强调了银行业独立风控的重要性,要求商业银行独立有效开展授信审批、合同签订等核心风控环节。

加上近期互联网平台涉足金融受到诸多监管限制,中小银行在提升风控能力、破局求生的过程中,互联网平台这股力量的存在感已经被逐渐削弱,被动出局。

其实早在银保监会这一说法出现之前,各大银行成立金融科技子公司时,谈到自身业务定位,都有过类似表达。

中银金科:外部金融科技服务方面,主要依托中行在金融服务、风险控制、技术研发等领域的优势,挖掘市场潜在客户,对外进行技术和产品输出。

李惠科也从技术架构演化的角度补充道,这不仅是市场和监管的需求,也是银行数字化转型中的必然趋势。

“在数字化转型过程中,银行本身的技术架构演化得更为灵活,更微服务化、云化、API化,这种演化才使得包括风控在内的技术赋能成为了可能,否则大型银行除了经验和业务指导,并不真正具备能力输出的条件和动力。”

他强调,这种大行向中小银行的赋能,不只是一种单向的帮助,也是大金融生态系统的一种共同进步。

协助中小银行加速搭建成熟风控体系的重担,也就这样落在了大行身上。

大行的风控“家底”和技术底气

大型银行的优势,显而易见。

有底气输出技术的大行科技子公司,多半含着资金和人才的“金汤匙”出生。顶象一位业务安全专家向AI金融评论表示,驻扎在北上广深的大行们,招募科技人才还是比较方便,这对大部分区域银行而言没那么容易。

对于金融业务的理解和把控,更是很少有企业能和实战经验丰富的大行们并肩。大行积累下来的厚实数据“家底”,正是中小银行所渴求的部分。

有业内人士透露,尤其是风控数据部分,中小银行一直希望大行能够共享风险黑名单,共享也取得了一定程度的进展,例如央行主导的反电信诈骗联盟,某国有大行就输出了大量的高质量黑名单数据。

融慧金科COO欧阳永明认为,这种输出整体上会降低银行在风控系统层面上的投入成本,“以前可能每家效应都要采购一套类似的系统,这样都会大幅拉高系统性投入,还不能保障这类采购来的系统封闭性如何。”

安全、合规、完整,应该是大行在输出风控时最为显著的几个优点。

“他们的输出,侧重点其实是在风控系统的耦合性、封闭性和安全性上;核心系统方面的建设,也更适合由大行的科技子公司来输出。”欧阳永明说。

李惠科也指出,大行合规上的管理经验比较完善,从产品设计到业务流程都可以输出相关的系统;大行的技术架构或是核心业务模块,包括数据的接入、清洗处理,到风控模型的建立,信贷的前中后期管理等各方面都可以帮助到中小银行,有的甚至可以直接输出。

我们也从各方了解到部分大行的风控输出进展。除了数据和算法上的共享,一位国有大行的科技子公司风控负责人向AI金融评论透露,他们会以PaaS或SaaS的形式,输出整体软件平台能力。

已累计向328家中小银行输出风控工具的建设银行,其旗下金融科技子公司——建信金科也采用了类似的模式。

他们所推出的“慧”系列风控产品,就是以建行的零售评分为核心,基于建行大数据基础,所运行的也是建行的风控、定价、额度测算和贷后预警模型,“打包”提供给重庆富民银行和甘肃银行这样的中小银行。

值得一提的是,除了针对零售个人客户的“慧”系列,建信金科还推出了分别针对小微企业和大中型公司客户的“微系列”“建系列”。

业内除了这种整体解决方案,也有主打数据方向的输出,例如工商银行的“融安e信”,定位就是根据金融同业及企业客户风险防控需求,自主研发的企业级风险信息数据库。

帮中小银行做风控,大行居然“不配”?

可并非每家银行都能如建行一般,从2018年科技子公司成立后不久就有成功案例,多的是远未达到落地阶段的合作。尽管监管层极力撮合,大型银行与中小银行双方也看似“郎有情妾有意”,但未见得就是般配。

大行之“大”,是优势,却也是最先的阻碍。

由于双方的起始条件都存在着不小差距,大行直接输出的系统多少会出现“杀鸡焉用宰牛刀”的情况。

欧阳永明向AI金融评论表示,大行输出的整套风控系统或工具,一些功能小银行需求可能比较弱,这也跟业务的发展有一定的关系。

“这就好比拿着重武器去小战场,会施展不开。”李惠科这样比喻二者的不适配。他指出,中小银行的服务规模和客群,自身的组织架构和技术水平,配套设施都远逊于大行,中小银行不见得能够消化大行的输出。

尽管常说模仿是成功的捷径,一些中小银行出于产品创新能力的短缺,就选择锚定个别头部城商行来对标,仿制对方的业务和采购的系统,但银行之间的软实力和目标、战术并不相似,结局很可能大相径庭。

欧阳永明解释称,“同样一个风险事件,有些银行应对速度特别快,资产保全能力也特别强,它们其实不怕再发生一些风险,甚至会允许一些风险进来,这样有助于获客,同时也可以训练风控模型和运行机制。”

“但另外有些银行(在同样的状况面前)未必能有这么好的应对,有可能直接造成损失,业务受到很大影响,可能会形成剧烈的波动,导致业务被迫暂停或者突然收紧,甚至是内部质疑业务模式等。”

在这样复杂的先决条件下,中小银行的风控需求多样化、定制化,这一核心问题,渐渐浮出水面。

顶象业务安全专家这样举例说明:

A风控在A机构比较有效,B机构拿去后却达不到预期效果,这并非A风控不够科学,而是B机构的业务与A机构存在差异,僵硬的套用导致水土不服。

“就算是同一家机构,随着时间推移,业务场景和客群发生变化,风控也需要不断更迭——更何况是不同机构?”他强调。

而大行无论是做风控系统和工具,还是设立科技子公司,首要目的仍然是为自身的业务创新和技术积累而服务,他们会为中小银行的特殊业务场景和需求,下功夫构建专属的风控体系吗?

中小银行的深度定制之复杂,同样考验服务商的水准。顶象业务安全专家就向AI金融评论透露,某银行增加一套反欺诈系统,要打通的内部系统涉及五、六个部门,还要给予业务需求和不同场景做差异化定制。

广大中小银行里,部分玩家是看得见未来但苦于摸不到未来,更多的小银行其实未必拥有前瞻思维和清醒的自我认知。

欧阳永明指出,中小银行的需求往往具有多样化和连续性,当然也会存在一些对自己需求还不够清晰明确的情况。

这些需求之中,地域性恰好就是大行输出风控的短板。

一方水土养一方人,中小银行的地方性特征也会反映在服务客群和资产质量上,大行全国化、通用化的数据模型和风控经验,是否能和中小银行这些颗粒度偏小、更下沉的数据适配,还是要打上一个问号。

欧阳永明补充称,国有大行在信用风险管理能力上非常强,但在反欺诈这个类别里可能就需要更多的经验,“因为在它们的历史作业过程中,目标客群资质偏优,欺诈风险不算太高。”

“但中小银行的服务客群更集中在不发达地区的人群,这类客群很容易受到灰黑产带动,所以中小银行的反欺诈需求其实会非常高。”

核心矛盾:无法回避的竞合关系

技术上的“不登对”或许还是其次,无法避开的同业竞合关系,更让这场风控合作几乎落入“一厢情愿”的境地。

顶象业务安全专家表示,大型银行会担心输出风控工具和技术或导致核心竞争力减弱;而中小银行会担心在使用大型银行的风控工具和技术之后,自身数据和客户有可能泄露,开展合作的积极性又减了几分。

对部分中小银行而言,在这场协助中被反向摸清战况,被兼并、被蚕食市场的恐惧和焦虑,可能会比风控更要紧。

“大行的资金成本比小行要低,做产品和触达客户的能力更强,现在大行对自己客群的了解情况非常清晰,这种情况下再做任何区域化竞争,小银行没有任何优势。”欧阳永明这样分析。

对此,大型银行并非无知无觉,试图以联盟化、生态化推动风控合作——生态建设固然是一种理想的行业发展模式,但也确实不见得可行。

一位风控公司高管透露,某股份制银行的风控总监就曾向其介绍,该行自2019年起就在组织风控共享平台,但对参与的银行数量避而不谈,只强调自身会对外共享。

“如果我是银行的人,只希望看到其他家,从中比较不足,发现对方的缺点;但是不一定愿意分享自己家的,怕别人看到自己的不足,也怕他人学习到自身的长处。”该高管向AI金融评论感慨道。

技术水平和开放程度都有所欠缺的中小银行们,所面临的有来自同业的竞争压力,也有监管层明确的风控要求。在风控要求和业绩增长之间如何平衡,不走为防风险而一味收紧业务的极端,不为担心同业竞争而一味排斥与大行合作,相信会是接下来漫长日子里,中小银行必须要面对的一项议题。

结语

单看大行与中小银行的风控合作,双方似乎掉进微妙的僵持当中。而这样的尴尬状况,很有可能会重复出现在双方的其他业务场景或技术赛道上。

但我们必须要注意到:风控,可能是金融科技最“饱经沧桑”的一条赛道。这里所发生的故事,将有的变数,都很难于别处再度上演。

在互联网平台携流量被动出局之后,总是拿着“配角”剧本、站在主角银行们身边的风控技术服务商们,或许就是那个能将局面盘活的“第三人”,和银行们一道,给出中小银行独立风控这道难题的最优解。

而在经历过大数据的强监管、P2P彻底退出历史舞台之后,风控存量玩家的博弈,种种波谲云诡,才是这场风暴被熟视无睹的另一面。

下一篇,我们聊聊第三方风控企业与自己、与银行的那些故事。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /IX4FYDjsMpMkKCfz.html#comments Tue, 18 May 2021 10:30:00 +0800
同盾科技董启江:金融首席架构师的「技术修养」与「业务嗅觉」 //www.drvow.com/category/DataSecurity /h6ME6wcF2PySUqs9.html 技术人才大致有三条发展路线:专精技术、转型管理、晋升架构师。

其中又属架构师在外界最为神秘。

在一家科技公司中,CEO往往无暇管理技术,CTO常是一些并不直接参与具体技术应用的科学家。这时,首席架构师便是一家企业最高的技术决策者。

首席架构师也许并不是对某一技术最为精通的人,但他无疑是对公司业务了解最全面且能最快发现新技术与业务完美融合的人。

首席架构师主要的工作职责是什么?他是如何影响整个公司的技术运行的?在金融领域,首席架构师的发展路径怎么走?

近日,雷锋网邀请了同盾科技、腾讯云、恒生电子、微众银行四家公司的首席架构师,希冀以客观和全面的角度展现首席架构师这一岗位。同盾科技首席架构师董启江受邀参与了此次对话,以下为对话实录。

架构师的“自我修养”

雷锋网:是什么原因,加入现在的公司,并担任首席架构师这一职位?

董启江:这个问题我也问过我们老板(笑),为什么找我?

那时候是2016年,公司有300多号技术人员,研发就超过100多人。仅产品线就有三条以上,比如反欺诈、信贷风控等。每个产品线都有自己的leader,每个产品也有相应的架构师。

这时候需要有一个角色去把公司整体平台架构和产品业务相应的关系理顺,需要有一个人去考虑未来的技术路线。

雷锋网:你怎么看越来越多的金融机构开始设立首席架构师这个职位?

董启江:以前的架构师大多只管理一个模块、一个业务。

金融行业的渠道非常多,比如手机银行、柜面、信用卡、借记卡,以前是不同的技术团队来管理各个渠道的风险。

而随着金融服务线上化的进程大大提速,面临的欺诈风险也趋向线上化、并发化、多维化、瞬时化、脉冲化转变,金融机构对其底层风控能力体系化、生态化的建设越来越重视,需要实现整体管理决策的数字化、业务与技术的融合、互联网运营能力,以及多场景支持的生态建设等问题。

这就需要架构师对整体风控系统的把控规划能力,把这些底层能力打通。

而首席架构师,就是在这样的趋势下设置的角色。他更多考虑全局生态系统的建设,而不是单点功能的建设。

雷锋网:你觉得首席架构师最本职的工作是什么?

董启江:我觉得最重要的两件事情,一个是做长远技术路线的选择和制定。在大家都迷茫的时候,要选对方向。

另外一个是架构设计。不要停留在当前的技术中,要去看未来,并不断根据现实进行调整。我们经常说,没有最好的架构,只有最合适的架构。

一个3岁的孩子,看到18岁的少男少女衣服很好看,但现在给他穿并不合适。在公司发展过程中也一样,避免过度架构设计、避免过度的科技投入。

雷锋网:在首席架构师这个岗位上,有哪些问题,你是会去反复琢磨的?

董启江:我们的客户是谁?我们客户使用场景是什么?怎么去帮助客户的业务开疆拓土?怎么将技术与业务更好地结合?这些问题会时刻去思考。

雷锋网:程序员和架构师之间,你觉得最大的区别是什么?

董启江:我觉得是看问题的角度不一样。

程序员更侧重于解决具体的问题,或者侧重于我的技术能干什么?相比而言,架构师不受限于某一个技术,而是更全局地看问题,从“问题”出发,而不是“技术”。

对于架构师来说,有些问题并不只是编码层面的。比如金融行业,架构师需要考虑到政策合规、数据安全,甚至需求合理性等方面的问题。

雷锋网:相比普通程序员,架构师看事情的角度会更多,你认为哪些素质是想要成为首席架构师的程序员必备的?

董启江:不管是首席架构师还是CTO,首先这是一个技术岗。

技术岗最基本的要求,就是热爱技术、对技术有热情。会写几行代码,不代表热爱技术。

深入了解技术的本质,在某几个点打深,随着阅历的增长,再将这些点扩展,连成线、连成面。

雷锋网:你怎么训练这些素质?

董启江:在扩展自己知识面的时候,会做一些有意识的训练,特别是系统性思维的训练。

比如做架构师,很多时候是在做取舍,需要经常说不。怎么建设性地说不,除了在技术上深入研究,还应该有意识地培训自己沟通交流的能力。

程序员实际上是蛮较真儿的,他往往不认你头衔,想要他认可你的意见,需要科学的依据、充分的理由、耐心的沟通。

雷锋网:工作这些年,有没有哪些困难是你印象比较深刻的?

董启江:同盾一直将安全合规作为公司的生命线,为了保障业务安全性,我们的安全团队会提很多要求,这时候,安全团队和产品团队或者运维团队就会不可避免地发生一些意见争论。实在协商不了,就会请我过来决断。

这实际上是一件蛮头疼的事情,决定“不要什么”比“要什么”更难,作为架构师要明白架构设计就是一种取舍或平衡。

雷锋网:在这种情况下,你怎么说服他们?

董启江:通过不断地分析问题本质,比如业内怎么解决的?我们有什么?核心诉求是什么?需求怎么解决?我们不停地将某个问题聊深聊透,在聊的过程中,引导他们找到思路。给出建设性的解决方案。

最后,我们会罗列出了超过5多个方案,然后大家一起来共同决策选择。

首席架构师眼中的金融风控

雷锋网:你觉得AI给金融机构带来了哪些改变?

董启江:AI给金融带来的价值,是实实在在的。

比如在智能风控领域,我们曾经帮助一家股份制银行共建智能风控中台,实现了对线上、线下各类零售金融的预警、处置、事后分析的全站式反欺诈及全流程风控管理。

该银行技术副总告诉我们,自2018年11月智能风控中台上线至2019年底,线上拦截风险交易涉及资金近2亿元,账户安全及规则成功预警防范典型欺诈案件近千起。

雷锋网:当时遇到了哪种类型的欺诈?怎么帮助解决的?

董启江:这家股份制银行向我们反馈,他们的一些C端客户银行账户被盗刷。

我们就通过他们提供的样本信息进行分析,判断出被盗刷客户是遭遇了假冒“公检法”的黑产团伙诈骗。

黑产团伙通过诱骗客户安装木马APP,诱导用户在APP中输入银行卡号、密码等信息。他们利用木马截取银行的交易短信,完成盗刷。

确认这一事实后,我们科技利用反钓鱼等手段,逆向侵入欺诈者在英国的服务器,获取了欺诈者留存于服务器中涉及国内多家大行、近千名受害者的信息。

然后我们协助该行共同建立了智能风控中台系统,在此基础之上,打造出风险标签体系、特征库、风险集市和全行级的客户风险画像。

同时,再将全行的各个渠道打通,让各渠道都可以共享名单、标签、预警信息、内外部联防联控。当整套体系建立起来后,银行的安全等级得到了很大提高。

雷锋网:所有人都在讲,数据未来是个金矿,你觉得未来金融机构使用数据的时候,会有哪些比较热门的应用方向?

董启江:我们认为所有数据都是有价值的,但在使用数据时,有一个前提,必须是“去隐私”的,实现数据的“可用不可见”。

目前来看,金融最典型的数据应用有风控、客户价值分析与挖掘和RPA等。比如风控可以降低风险,客户价值挖掘可以增加广告收入,而RPA可以代替人类做重复性的工作。

雷锋网:刚刚你提到使用数据的前提是“去隐私”,对于“数据安全”相关的技术和产业,你怎么看其未来发展前景?

董启江:基于数据共享和流通驱动的商业活动前景广阔,这个趋势不可逆。但是,数据安全将成为行业企业发展的根本前提。

数据安全是对立统一的一体两面,既是技术问题、管理问题,也是伦理问题、法律问题。

我们一直将数据安全作为公司的生命线,以数据安全为核心,从安全攻防、安全管理、人员内控、安全合规等四个维度投入大量资源打造数据安全体系。

去年,同盾投入了1000多人日,建立完整的去标识化体系,从底层架构层面支撑业务数据合规,实现数据流转与存储的“可用不可见”。

雷锋网:同盾的客户有金融、互联网、政企等,你觉得金融行业客户和其他行业的客户有哪些不一样的地方?

董启江:每个行业都有特别需要注意的“明确规则”。

比如金融行业对系统的稳定性和安全性要求非常高,对风险十分敏感。而相比金融行业,互联网行业的客户更倾向于高性能、高并发、能快速响应的系统。

雷锋网:如今银行科技的马太效应越来越显著,大行的技术实力越来越强,和中小银行拉开了不小的距离。同盾在给大型银行和中小型银行提供智能风控时,会有哪些不同?

董启江:对于国有六大银行和头部的股份制银行,他们有消化科技的能力,我们直接输出技术就可以。

对于很多中小银行,技术实力需要循序渐进的提高,很难一下子全部接受所有的技术赋能。

这时候,我们会去帮他做一定程度的运维。

值得注意的是,银行服务的渠道、场景在增多,黑客的攻击手段也在不断增加,银行和黑客之间的博弈会一直存在。

风控,不是一锤子买卖。它实际上是持续运维、不断攻防的过程。

追寻技术的本质

雷锋网:从普通程序员到首席架构师,你一路上是如何成长的,有什么秘诀可以和我们分享一下?

董启江:谈不上秘诀。不管是技术、产品还是商业,都要看到事物背后的本质。

因此我想跟大家分享自己的一个职业经验,时刻保持训练自己去识别事物本质的能力,否则很难去做选择。

雷锋网:训练这方面的能力,你是如何做的?

董启江:计算机本身是一种科学的方法,它所有的结论都是经得起推敲的,而我们需要训练的是如何把这些推导结论拿出来,说服别人。

优点是什么?缺点是什么?不能违反推导过程,不能违反计算机基本的原理。

当我们对科学的推导过程有良好的训练,就可以说服很多人。

另外,在业务这块,问题的本质要从数据中找、从各个团队的交流中找、从实际调研中找。这样才能有理有据。

在这个过程中,我觉得很重要一点是结构化的逻辑思维能力。沟通这件事不是想到什么说什么,需要把整个思路理得非常清楚。

比如我去说服某个人或者某个团队的时候,可能用到六顶思考帽这样的思考方式,会写些表格把优缺点罗列出来,让大家一起来做选择。

有时候可能自己已经有答案了,但实际上还是需要引导大家走完这个训练的过程,有意识地培养这样的能力。

雷锋网:你平时大部分的时间会投入在哪方面的工作中?

董启江:不同阶段有不同的工作重点。

在业务急速扩张和发展的时期,我更多去帮助团队破局或者解题。在大家迷茫的时候,帮大家找到一些关键的方向。

在业务稳步发展的时期,我把更多精力放在未来技术路线怎么走上。

比如2019年,隐私安全越来越受到重视,要求越来越严格,我们会考虑用哪些技术去保证数据的安全、合规。

雷锋网:有什么想对希望成为架构师的技术人员说的话?

董启江:我接触过一些国外优秀的架构师,他们不仅经验丰富,更追寻技术的本质,对技术背后的原理有着很深的了解与热爱。而国内可能写代码写了5—10年,就可以发展成为架构师了。

我认为仅仅是经验丰富,还很难成为一名架构师。

技术迭代的速度太快了,如果以前的经验不能沉淀为方法论的话,实际上不仅无用,甚至还会阻碍我们向前发展。

如果要给刚进入职场的技术人员一些具体的建议,首先是在自己工作或兴趣范围内的技术有一个比较深入的研究。深入研究后,再扩展自己的面,能够做到举一反三。

另外在非技术方面,要进行一些刻意训练,包括结构化的思维、沟通技巧等。

架构师是得罪人的工作,要学会取舍,要敢于说不。同时,你也不要为了说不而说不,要给出建设性的建议,要有理有据。

雷锋网:你觉得国内外架构师,为什么会出现这样的差异?

董启江:我觉得在某些方面,比如在科学技术领域,中国传统的思维习惯不是很适合。

中国人的思维方式更多的是悟,而国外更强调科学方法(科学方法是逻辑学和实验观测),他们做事情会有意识地沉淀总结,形成体系和方法论。当一门学科有了体系之后,就可以传承给更多的人。

首席架构师如何看未来?

雷锋网:一家公司的发展,主要是由需求驱动,还是由技术驱动?

董启江:需求驱动是一方面,技术层面的思考也是必要的。

我们很早判断出,云原生是一个很大的技术赛道。于是投入了许多资源去研究这一方向。

2018年,我们整个公司全面拥抱云原生,借助于云原生技术,构建跨多云的发布部署、弹性扩展与故障自愈能力,能够帮助企业快速构建更加适合云的敏捷应用服务,提升客户体验。这就主要是从技术层面来考虑的。

雷锋网:我刚看到IDC最新发布的数据,2020年全球公有云服务整体市场规模(IaaS/PaaS/SaaS)达到3124.2亿美元,同比增长24.1%,而中国公有云服务整体市场规模达到193.8亿美元,同比增长49.7%,全球各区域中增速最高。目前同盾在云服务上,发展如何?

董启江:截止2019年底,我们在力保客户0故障的前提下,累计完成了九百多个应用容器化迁移工作,在线Web类业务容器化达97.3%。

这相当于为公司节省了六百多台物理服务器,节省了几乎1/3的机器成本。

在研发效率提升方面,将应用和基建的交付时间从小时级降到分钟级,弹性扩容从原先几个小时扩容10个计算资源到现在只需要3分钟内即可完成100个计算资源的扩容。

雷锋网:你们在2017年开始布局云原生,可以透露目前你们在考虑哪些未来的技术发展方向?

董启江:从去年到现在,我们在看一件事情,数据合规。

我们都知道数据有价值,之前我在阿里带流量团队,也深刻体会到数据带来的价值,比如“千人千面”,给用户推荐他喜欢看或者希望看的内容。

但同时也带来了数据安全、隐私保护等风险挑战,数据安全将成为行业发展的根本前提。

去年开始,同盾投入了八个多月、上千人日的努力,建立完整的去标识化体系,能够尽量降低数据滥用和泄露的可能性,为数据的后续智能分析和价值挖掘,提供一个安全的环境。(雷锋网雷锋网)

]]>
风控与安全 //www.drvow.com/category/DataSecurity /h6ME6wcF2PySUqs9.html#comments Sun, 25 Apr 2021 16:57:00 +0800
冰鉴科技半年内完成两轮融资:获2.28亿元C2轮融资,国创中鼎领投 //www.drvow.com/category/DataSecurity /MIzvWC8RozH1oxXH.html 4月12日,AI风控技术服务商冰鉴科技宣布完成2.28亿元C2轮融资。该轮融资由国创中鼎领投,东方富海、曦域资本跟投。投中资本担任C2轮独家投资顾问。2020年底冰鉴科技曾宣布完成C1轮投资,C1和C2合称为C轮融资。

本轮融资主要用于扩展研发团队,对上下游进行投资并购,以及完善公司生态建设和业务版图。

冰鉴科技创始人兼董事长顾凌云表示,市场在疫情磨砺后对以技术为驱动的企业服务头部公司更为看重;同时,随着人工智能赛道的不断成熟,无论一级市场和二级市场,都更为清晰地认识到:冰鉴这样以算法和技术双轮驱动的科技公司,和依赖自有无成本数据的传统公司的巨大价值差异。

(推荐阅读:《冰鉴科技CEO顾凌云: AI金融产品是「鸡肋」还是「鸡腿」?》

成立于2015年的冰鉴科技,已在人工智能企业服务领域尤其是风控领域深耕多年,并正在积极推动人工智能在金融、医疗、政务、安防等各个行业的应用落地。

依托人工智能核心技术,冰鉴科技提供个人风险预测、企业风险预测、智能风控决策中台以及智能获客等服务,可为银行、消费金融公司、保险及其他金融机构提供全流程的解决方案,赋能机构实现风险管控和降本增效,加速金融行业“智能+”升级与数字化转型。

据了解,冰鉴科技持续钻研深度学习、知识图谱、NLP(自然语言处理)、联邦学习等人工智能前沿技术,已获得31项国家发明专利,118项国家软件著作权,另有34项专利正在实质审查中。

冰鉴科技透露,截至目前,他们已与工中交建邮五家国有大行,以及兴业、广发、中信等股份行,南京银行等城商行,以及招联消费金融等多家消金公司,共数百家机构达成合作。其产品的日调用量超过1000万次,帮助数百万家小微机构、数亿人次长尾人群获得金融服务。

在中国人民银行上海总部公示的第二批金融科技创新监管试点中,冰鉴科技与南京银行联合创新的“基于多方安全计算的差异化营销平台”成功入选。

海外市场方面,冰鉴科技已与新加坡华侨永亨银行(OCBC),泰国汇商银行(SCB)等深入合作,涉足东南亚、美国、澳大利亚等国家和地区。

经过多轮融资,冰鉴科技以金融行业的人工智能应用为根基,从企业服务出发,不断拓展服务边界,目前已在医疗、政务、安防等多个行业应用落地。在医疗AI方面,冰鉴科技和一家上海大型三甲医院合作探索智能化诊断项目;在政务AI领域,冰鉴科技和多地政府探索合作风险监测及融资类平台管理项目;在安防AI领域,冰鉴科技和中西部地区公安部门合作智能反洗钱资金研判项目。作为一家技术立身的企业,冰鉴科技坚持探索未知的步伐,面向未来打造多行业的人工智能综合解决方案。

值得一提的是,经历在去年的疫情洗礼和今年一季度的艰难复苏,人工智能、金融科技等领域的投融资逐渐活跃起来。

斯坦福大学最新发布的2021年《人工智能指数报告》(AI Index Report)显示,虽然2020年全球AI公司融资总金额创下新高,但自2017年以来,获得融资的AI公司数量连续三年下降——说明更多的钱被投入到更少的AI公司手中。

和金融科技相关的反欺诈、银行AI等领域相关的融资虽比2019年有所增长,但绝对融资金额占整个AI行业的融资比重并不高。 

毕马威(KPMG)中国官网3月底发布的《金融科技动向》也总结了2020年的投融资趋势。中国金融科技行业投融资去年严重疲软,投资总额由2019年的48亿美元下跌至16亿美元。

毕马威报告分析认为,“2020年下半年有许多监管草案和政策颁布。包括民间借贷利率上限、互联网贷款的资本杠杆限制、反垄断的相关规定及个人隐私数据保护等等。这些监管措施不仅导致了蚂蚁集团IPO延期,也令中国的金融科技投融资活动处于‘观望’的状态。”

毕马威中国金融科技主管合伙人黄艾舟表示:“2020年,我们看到的最大变化之一是金融科技企业的重心有所转移,现在企业都把目光聚焦在如何赋能传统金融机构,而不是直接向消费者提供产品。” 

直接从事借贷相关业务的所谓金融科技公司在新的监管环境下,生存愈发艰难。而单纯提供技术,尤其是专注以人工智能技术提供企业级服务、为金融机构赋能的公司正在受到更多资本青睐。

从前述两份研究报告来看,中国的人工智能和金融科技领域,在投融资金额和活跃程度方面,仍暂时落后于美国。但值得关注的是,能交叉融汇这两大领域的中国公司,正逐步崭露头角,受到资本市场的更多关注。

雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /MIzvWC8RozH1oxXH.html#comments Mon, 12 Apr 2021 12:34:00 +0800
AI风险管理服务商慧安金科完成亿元级B轮融资,持续发力智能监管科技 //www.drvow.com/category/DataSecurity /Tk95UmYfJJSPvXax.html 雷锋网AI金融评论消息,近期,人工智能风险管理服务商慧安金科正式完成亿元级B轮融资,由重庆两江中新嘉量金融科技人民币股权投资基金合伙企业(有限合伙)(以下简称“中新嘉量基金”)领投,现有股东高瓴资本及创新工场跟投。本次融资也是中新嘉量基金一期募集完成后投出的首个项目。

慧安金科创始人/CEO黄铃表示:“本轮融资将用于顶尖人才引进、智能风控以及监管科技产品的持续研发投入等方面,加速国际前沿智能科技产品在各行业的拓展和规模化落地应用,让人工智能成为一项基础性技术支撑,帮助企业构建智能安全防护体系。”

慧安金科成立于2017年,是一家利用人工智能、机器学习技术为各机构提供人工智能解决方案的技术企业,公司以自主研发的主动式机器学习技术为核心,将创新技术深度应用于金融风控与监管科技领域,为金融机构提供智能风控、反洗钱、内控审计、智能营销等产品和服务。

此前AI金融评论曾与黄铃就「AI能否解决金融刚需问题」这一系列选题进行深度交流,他表示,

不光是AI金融行业,AI在任何一个行业的落地,不只是一个技术问题,更是一个业务问题。

如果你想让AI的落地,真正通过技术解决客户日常业务中碰到的问题,你必须去了解客户的业务是如何运转的,它存在的挑战和风险是什么。

第二,AI实际上在不断的预测未来。它不像我们过去做个模型,只要采集好静态数据预测就能很准确。

实际生活中数据是不断变化的,AI在这个动态的世界里需要不断的自我学习,才能持续准确的预测未来。

想要将未来预测的准确、稳定还可靠,是一件非常有挑战的事情。希望大家能做好准备,沉下心来脚踏实地,真正做一些能够稳定、持续预测未来目标的AI系统。

慧安金科方面表示,综合运用人工智能、自然语言处理、时序分析、图计算等国际前沿技术帮助机构解决较为复杂、繁琐和重复性的工作,提升工作质量和效率,降低风控和合规成本,依靠技术创新、理念创新、产品创新帮助各机构提升风险监测、预警和化解能力并打造自主创建并应用AI应用的能力。

他们透露,目前已完成在招商银行、光大银行、建设银行、中国银行等头部金融机构的技术落地实践。

此外,中新嘉量基金合伙人朱晖也表示:“人工智能是监管科技的核心技术之一,在应对系统性金融风险方面拥有着其独特的优势,将人工智能技术应用到合规科技亦是大势所趋。”他们也将利用自身资源优势,助力慧安金科不断完成技术创新,助力金融机构构建智慧金融安全防护体系。

]]>
风控与安全 //www.drvow.com/category/DataSecurity /Tk95UmYfJJSPvXax.html#comments Mon, 01 Mar 2021 11:11:00 +0800
央行:不宜依赖消费金融扩大消费 //www.drvow.com/category/DataSecurity /5dxM23wbQJLL6MoU.html 日前,央行发布《2020年第四季度中国货币政策执行报告》。

报告重点专栏指出,要高度警惕居民杠杆率过快上升的透支效应和潜在风险,不宜依赖消费金融扩大消费,我国居民部门债务风险总体可控,但宏观空间也已不大。

文章称,加快构建新发展格局,要注重需求侧管理,坚持扩大内需这个战略基点,激发国内消费潜力,但不宜靠发展消费金融来扩大消费。要坚持金融创新在审慎监管的前提下进行,更多从促进就业、完善社保、优化收入结构、改善消费环境等方面发力,始终把实施扩大内需战略同深化供给侧结构性改革有机结合,增强消费对经济高质量发展的基础性作用。

为何不宜依赖消费金融扩大消费?

央行专栏文章称,我国居民杠杆率上升主要源自房贷、消费贷、信用卡透支增长,但有一部分实际上是个体工商户经营性贷款,对此要客观甄别、合理评估。同时,也要高度警惕居民杠杆率过快上升的透支效应和潜在风险,不宜依赖消费金融扩大消费。

一方面,部分负债消费主体存在非理性,未来收入与还款支出不匹配,容易超过自身经济能力过度借贷消费,埋下金融风险的隐患。

另一方面,企业面对债务刺激出来的消费需求,若扩大生产,则当未来居民债务不断攀升、偿付能力难以为继时,又会暴露出产能过剩问题,与高质量发展的要求不匹配。

与此同时,在我国消费贷款快速扩张过程中,部分金融机构忽视了消费金融背后所蕴含的风险,客户资质下沉明显,多头共债和过度授信问题突出。2020年以来,部分银行信用卡、消费贷不良率已显现上升苗头。

央行的这一表述,被认为是不止局限于互联网消费金融或无牌照机构的风险,所谓的消费金融风险也包括持牌机构的风险,不仅指与互联网机构合作较多消费贷产品风险,也包括银行自有的信用卡产品风险,是非常全面且审慎的表述。

消费金融数年前曾获鼓励

需要注意的是,就在几年前,监管层则十分看重消费金融促进消费的作用。

2009年,消费金融公司的设立是“促进我国经济从投资主导型向消费主导型转变的需要”。

2018年时,银保监会还曾发文称,积极发展消费金融,增强消费对经济的拉动作用。

但与此同时,央行数据显示,2011 年以来我国居民部门杠杆率持续走高,2011 年末至 2020 年上半年的上升幅度超过 31 个百分点,居民债务继续扩张的空间已非常有限。

“要高度警惕居民杠杆率过快上升的透支效应和潜在风险。”央行认为,一方面,部分负债消费主体存在非理性,未来收入与还款支出不匹配,容易超过自身经济能力过度借贷消费,埋下金融风险的隐患。另一方面,企业面对债务刺激出来的消费需求, 若扩大生产,则当未来居民债务不断攀升、偿付能力难以为继时,又会暴露出产能过剩问题,与高质量发展的要求不匹配。

国务院发展研究中心金融所银行研究室副主任王刚曾公开表示,消费观念变化是推动居民杠杆率上升的重要因素,而新型消费金融行业的快速生长,为居民加杠杆推波助澜。在此背景下,要关注居民部门杠杆率提升背后的潜在风险,要重视银行向信用等级较低的次级客户发放贷款,导致信用卡和消费金融领域不良率快速攀升等问题。

参考来源:财联社、金融界

雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /5dxM23wbQJLL6MoU.html#comments Thu, 11 Feb 2021 01:24:00 +0800
前百度金融CRO王劲:十七年运通岁月沉淀,我的消费信贷风控观 //www.drvow.com/category/DataSecurity /GgFZXVxmIjkVURbu.html

金融人手握大量数据、规则和算法,却没有读懂真正的风险管理:

  • 数据量越多、维度越全,就是更好的数据吗?就能实现最好的风控效果吗?

  • 风险管理是一门寻求平衡点的科学,那么我们应该在什么问题上寻求平衡?只是风控尺度和业务增长之间的问题吗?

  • 一个卓越的风控模型,除了考虑算法、考虑数据,它到底还有多少细节是你错失的?

  • ……

王劲曾是百度金融的CRO,也在有着“风控黄埔军校”之称的美国运通工作了十七年。

次贷危机之后,美联储加强了对所有银行机构的风险模型管理,而他在美国运通的最后五年,创建了运通的模型监管和验证中心,对全公司上千个模型进行全面的管理——亲身经历过次贷危机的他,对风险管理有着独到的洞察。

近日,雷锋网《银行业AI生态云峰会》就邀请到融慧金科CEO王劲,作为「数字化风控」赛道的科技专家,为大家带来他在银行智能信贷风控的管理理念和应用实践。

以下为王劲的演讲内容,雷锋网AI金融评论作了不改变原意的编辑:

大家好,非常高兴今天有机会跟大家在线上分享我在管理风险的二十多年中,所沉淀的一些知识和经验,希望对大家有所帮助。

金融机构做好风险管理平衡的核心要素

近年来,随着中国互联网金融飞速发展,同时面临着很多的难题和挑战。

首先,如何定义风险的使命,风险管理人员的定位一定要准确。

对于风险的使命,我实际上是借用美国运通当时的CRO在二十多年前的一个定义——推动有利润的业务增长,同时提供卓越的客户体验,避免意外风险——整个描述并没有表示要降低风险或者把风险降到零。

有利润,意味着风险一定要在可控的范围之内。

增长,风险不是限制业务的发展,而是要帮助业务做有利润的增长。

卓越的客户体验。很多时候我们不是太关注,但是风险管理的每一个决策、每一个动作实际上是会影响到客户体验的。

避免意外风险。因为金融本身就是在运营风险,没有风险是不可能的,我们并不惧怕可预知的风险。

比如我们判断一个客户的坏账率是2%~3%,这个并不是风险——但如果最后的实际结果是5%~10%,这个情况就是意外风险。

所以,我们做风险管理,一定要每时每刻预判未来可能发生的事情并及早应对。例如压力测试就是一个为了避免意外风险的风险管理动作。

风险管理最重要的就是对数据的把控,思考数据的生命周期。首先要从对业务产品和客户的选择当中,决定需要什么样的数据。

基于业务方向,我们要对内外部的数据进行各种盘点,比如从客户那里收集什么样的数据?在人行要拿什么样的征信数据?需要用什么样的第三方数据进行补充?为了服务客户和达到业务目标,必须要有足够好的数据帮助我们进行风险管理。

此外,立下数据选择的原则和条件。因为在众多的数据中,有合规的和不合规的,并且存在着强弱之分,如果没有制定相应的原则和条件,在未来就会有很大的麻烦。

数据的分析和引入。我们要分析、评判市场上的各种数据源,再做引入,之后要对数据进行实时监控,以保证其质量和持续的效果,这就是数据战略的一个闭环。

接下来跟大家分享一下,选择数据的条件

  1. 数据必须合规,必须要满足国家和政府的要求且一定要有授权。

  2. 数据的全国人口覆盖率要高,这是一个非常重要的要求。如果数据的覆盖率不高,就会影响模型的识别度、稳定度等。

  3. 数据的新鲜度和时效性要高。要达到日更新至少是t+3,即今天的决策一定要达到3天之内的时效性。如果现在的决策数据是5天前的,那么现在这个模型决策的质量就会相应地打折扣。

  4. 数据的历史长,可以回溯至12个月以上。因为很多的衍生变量会回溯历史,如果没有可回溯的历史,那么也不会形成这些非常重要的变量。

    同时,可回溯也让我们能够验证一些历史数据的效果,这个条件是非常重要的。

  5. 数据的稳定性好,我们会跨时间窗观察数据的波动。如果数据波动性太大,那稳定性肯定是不好的。

数据战略是一个相对长期的落地过程在这个过程中,数据要达到怎样的标准和维度

  1. 覆盖低到覆盖高。

  2. 信息薄到信息厚。有些客户可能有20个变量可以描述,那么可不可以将其演变成,平均有30~40个变量在描述客户?这就是二者之间的关系。

  3. 质量低到质量高,不能用到一些垃圾数据。

  4. 弱相关到强相关。比如在刚开始的20个变量当中,可能有80%的弱变量;如果剩下的20%的强相关演变成30%的强相关变量,模型的决策就会更好。

  5. 高成本到低成本。

  6. 源集中到源分散。大家通常把自己的一些策略和模型,特别地依赖于某一两个数据源,这实际上存在着非常大的操作风险。我们一定要在数据战略中将其来源尽量地分散开来,当然也不是无限制的分散,而是要找到其中的平衡点。

引入数据之后,它的价值转化分为哪些部分?

首先,是基础的数据层,数据源包含了客户提供的数据、征信数据、第三方数据等等。

数据层之上,是工序#1的加工层,将对各种数据源进行衍生,否则原始数据就不会得到很好的利用。

在衍生变量这一层,要着眼于这些变量的使用场景。有些衍生变量与欺诈相关,有的与信用相关,有些则是与精准获客相关。

工序#2是集成层,因为衍生变量可能是基于某个数据源而成,那么,模型和规则就会帮助我们把各个数据源的衍生变量进行再集成,使其成为一个子模型或者是一套规则。

工序#3是解决方案层,反欺诈的解决方案可能会有上百个规则,这上百个规则可能用到十个模型,相当于将各种各样的材料修建成一所房子,最后输出给持牌的金融机构。

从最底层的征信数据层到各种加工层,金融行业里的参与者承担着不同的角色。当每个银行和消金要进行自身转换时,他们也需要承担加工、集成和解决方案的角色。

如何做好风险管理中的平衡

很多人并不是特别理解,风险管理永远是一个寻找平衡点的科学。除了要用到人工智能、非常多的数据、算法之外,实际上,很大一部分风险管理是在寻求平衡。

平衡点之一:风控和业务增长之间的平衡。

比如在产品人群额度的选择上,我们可以操作高利率、低质人群、低额度。

虽然风险高,但是获客成本低,业务量也会加大,这些大量有贷款需求的人,他们的风险是比较高的。

与此同时,也可以操作低利率、优质人群、高额度,这部分人群可能风险比较低,但是获客成本高。

优质人群对信贷的需求相对较低,所以业务量也较少。大银行吸引的是大批的优质人群,其他的小银行和金融机构,可能在这方面的挑战就相对大一些。

所以,在运营当中,要在高利率和低利率,优质人群和和低质人群,高额度还是低额度之间寻找平衡点。

平衡点之二:在风险管理的数据、模型以及策略中,如何平衡简单和复杂。

这也是非常考验人——简单意味着准确度低,合规操作风险低,相应的成本也低。

而复杂,模型用到了非常多的变量,非常复杂的算法,那么准确度可能会相应提高,但是合规操作的风险也变高了,成本也会增加。

所以,如何在业务的初期、业务的增长期以及成熟期,找到其中的平衡点,是一个具有挑战性的课题。

平衡点之三:“科学”和“艺术”之间的平衡。

比如在风险管理当中,我们会用到大量的数据,用科学的方法对数据进行回归和分析,它的好处就是客观的,而不是主观的。

因为要基于数据过去的表现做策略和模型,其不利的地方就在于局限于数据的好坏,在一个混乱的P2P和payday loan的时代收集到的数据,我们要对其科学性进行质疑。

过去的数据并不能够代表未来。过去的利率可能做到50%、甚至100%,但是监管加强之后,利率就得下调,这是对科学的一些挑战。

“艺术”则依赖于实践的经验,宏观的发展方向,包括监管、竞争环境以及社会行为。人们为什么要借贷?为什么还不上贷款?这些都是基于经验所沉淀下来的一些东西。

其坏处在于局限于个人的经历,如果CRO或者总经理在风险管理方面的经验不够,在决策上就会遇到一些问题。

所以,风险管理既不能够完全的依靠数据科学,也不能够完全依靠主观经验,关键在于找到其中的平衡点。

卓越风控模型建设的必备能力

在模型风险管理当中,现今的大数据以及互联网金融时代是离不开模型的,在互联网金融管理的原则方面,就是要充分的利用概率,而这个概率是通过模型实现的。

一个卓越的模型需要有哪些要求?

  1. 数据选择,一定要考虑数据的覆盖率、缺失率、新鲜度和稳定性。

  2. 衍生创新,一个模型的好坏与否,前两点是非常重要的,如果衍生变量做得不是特别好,那么数据本身跟所要预测的东西的相关性就会比较弱。所以在衍生的过程当中,要增强其稳定性。

  3. 架构选择,有了原料和衍生品之后,应该怎样架构模型?用不用子模型,要不要做人群分割?这些因素将会影响最后模型的中长期的表现,以及维护的成本。

  4. 算法选择,要用传统的逻辑回归,还是有一些简单的决策树,或者用机器学习神经网络,需要对这些技术加以选择。

  5. 监控迭代,每一个模型都有其对应的生命周期,所以我们一定要知道每一个模型什么时候失效,什么时候应该迭代,我们一定要打造一个能够实时跟踪的平台,在衰退后又能够快速的迭代。

  6. y的定义和样本的筛选。

虽然拥有了优质的原材料、数据、衍生变量,但是如果y的定义出现问题,是要将逾期30天定义成坏样本,还是将60天的逾期定义为坏样本?是否在其中增加额度的一些条件,而不是坏账的金额条件。

样本的选择也是如此。历史上的样本可能是有波动的,如何选择能够带来对未来预测的样本,也是一个非常重要的因素。

评判的标准,除了辨别力之外,精准度要高、稳定性和复杂性要强以及可解释性。

所以模型的建设不仅仅只是算法,也并非是对数据的选择,而是一个非常复杂的提炼的过程。

  • 举例说明模型该如何架构?

第一个架构方式:比如有三个数据源,先将其集成到内部的数据库里,再利用这些几百至上千的数据,做出一个模型A。

第二个架构方式:基于每个数据源建立一个子模型,然后将这些子模型再集成为另外一个模型A。

这两种都有各自的优劣势。

第一种,识别率和精准度相对较高。因为它是基于相对底层的数据集成起来的,每一个子数据都有相应的权重,其精准度会相对高一些。

劣势是稳定性弱,操作风险高。如果把这三个数据源的数据混杂在一起,那么一个数据源出了问题,就会影响模型A的迭代速度和效果。

第二个的优势在于稳定性强,通过集成数据源一和数据源二,就会削弱一些波动,稳定性得到增强的同时,操作风险也比较低。

如果数据源三出了问题,将子模型一和二并列,虽然还是同一个模型,但是识别率和精准度会受到损伤。两个不同的模型架构,将影响到未来的表现结果。

很多信贷公司都会遇到的课题就是,在不同的流量入口的条件下,每一个渠道的人群和风险特征是不相同的。

那么,是将每一个渠道做一个模型?还是将流量渠道1和2合并形成模型A,之后通过再流量渠道3形成模型C?

什么情况下可以合并呢?当某一个渠道的样本很少,并且一和二的风险特征相近,同时某一个渠道的样本也不充足时,合并会产生更好的效果。

那么,该怎样有效使用模型?模型只是一个工具而已,定义模型就像一个温度计,高烧定义在什么位置?低烧定义在哪个温度点?在使用时一定要明确模型的优点和局限性,否则就会出问题。

优点是客观的,能够进行比较精准的排序,高效率地处理客户,同时依靠统计技术调整业务、变动阈值,以影响通过率和坏账结果。

局限性在于开发时间较长,过去的表现不能完全预测未来,所以一定要有“艺术”判断的部分;模型也是对现实的简化。

比如用户不能还款的原因,有可能是失业、生病或者离婚,面对这些复杂的因素,模型是无法判断每一个逾期的原因。

当模型用到了非常多的变量之后,透明度、稳定性、可解释性都会受到挑战。在强监管的金融环境里,都需要将这些因素考虑进去。

金融动态风险管理的核心关注点

风险管理会受到宏观政策、国际环境、经济周期、监管和竞争环境等因素的影响,所以要增强动态管理的理念。

具体分为以下三个方面:

第一,实时了解客户,其中包括时效性很高的征信信息、客户信息、公开信息,以及第三方的信息,一定不能是非常陈旧的信息,那样无法做到动态的风险管理。

第二,寻找风险和回报的平衡点。风险管理就是要不断地寻找平衡点,风险管理和业务的博弈,简单和复杂的博弈,都需要不断地进行调整。

最好基于利润的角度,平衡风险和回报。例如投入和回报的比例,利率应该定在哪个点,才能得到恰当的回报。

风险管理一定不能只看到当今的风险,只参考当今的数据。

我们一定要从计量和定性的角度,判断在压力状况下评估的这部分优势人群和组合;如何判断他们在压力情况下的坏账情况,是否会让我们从赚钱到亏本,这些都是风险管理中非常重要的理念。

第三,经验判断,我们一定要利用经验来补充科学,其中包含市场、竞对、员工、监管学习新的思想和方法,例如在次贷危机当中,很多机构关张或受到重创,但也有很多机构变得非常成功。

例如当时的摩根,就是在次贷危机里相对成功的案例,但是美雷曼还有AIG保险公司都受到了重创,主要原因在于缺乏经验的判断和果断的决策。

需要利用经验来判断现今的时事,哪些需要相信模型,哪些要绕过模型做决策,都是动态风险管理的理由。

最近两三年,国家把金融环境梳理得非常干净、健康,有利于国家经济的正常发展。银行、消金公司等持牌金融机构都要面临合规治理。

怎样利用技术手段,在达到国家要求的同时,提升金融合规的自动化、专业性、时效性、包容性、协调性?需要做到以下四大方面:

第一,身份识别和控制,如何做好KYC(Know Your Customer),明确用户资产能力和还款能力。国家一直在强调要合理不能过度借贷给客户,这些都是KYC的一部分。

第二,数据安全管理,数据安全包括隐私、来源、使用、保管、质量的保障。

第三,风险模型管理,在次贷危机之后,美联储加强了对所有银行机构的风险模型的管理。我在美国运通的最后5年创建了运通的模型监管和验证中心,对全公司的1000个模型进行全面的管理。

第四,自动化监控体系,如何实时监控业务、风险指标、数据、模型、稳定性、衰退情况,及时地预警和快速的应对,以对操作风险进行有效把控。

一家金融机构如果能在以上四个方面做到高效并加以完善,将会是非常不错的一种状态。

观看回放丨雷锋网·银行业AI生态云峰会

扫码关注公众号“AI金融评论”(ID: aijinrongpinglun),加入专家直播群,观看全部云峰会内容回放。

]]>
风控与安全 //www.drvow.com/category/DataSecurity /GgFZXVxmIjkVURbu.html#comments Wed, 03 Feb 2021 20:22:00 +0800
银保监会工作会议召开,首提“将推动大型银行向中小银行输出风控工具和技术” //www.drvow.com/category/DataSecurity /yhkEQ1ty657ZXkue.html 2021年中国银保监会工作会议近日召开,会上圈定了今年多项重点工作,对金融科技的监管口径和细节也有不小变化。

首先最值得金融科技领域注意的是,银保监会首次提出“要推动大型银行向中小银行输出风控工具和技术”。

这一新提法引起不小关注,综合业界反应和雷锋网AI金融评论以往报道来看,业内存在着这样一些观点:

大型银行的风控水平无疑更有保障,也更受监管肯定,中小银行在风控方面仍有不少缺失。

中小银行的风控水平有限,很大一个原因是受限于自身科技实力,因此相比起大型银行,中小银行更依赖第三方风控企业的技术解决方案。

另一方面,部分中小银行近年来也出现了激进追求业绩的情况,风险事件频发。

而大行们的金融科技子公司,相信未来会更多地参与到风控能力的输出上。目前已有12家商业银行设立了金融科技子公司,母公司多为大中型银行。

但大型银行同时也是中小银行的竞争对手,在现有竞合关系下,银保监会的提议能否顺利实现、中小银行的接纳程度如何,都需要打上一个问号。

除了上述内容,本次工作会议还释放了不少金融科技严监管的信号。

银保监会在此次工作会议中称,加强对互联网平台金融活动监管,同时强调了加强对银行保险机构与互联网平台合作开展金融活动的监管。

同时也再次强调:

  • 依法将金融活动全面纳入监管,对同类业务、同类主体一视同仁。

  • 加大对非法金融以及“无照驾驶”打击力度。

  • 要加强对银行保险机构与互联网平台合作开展金融活动的监管。

  • 坚决遏制垄断和不正当竞争行为,防止资本在金融领域的无序扩张和野蛮生长。

会议要求,要大力规范整治重点业务。持续整治影子银行,对高风险影子银行业务的新形式新变种露头就打。对理财存量资产处置不力的机构加大监管力度。

此外,“整治名实不符金融产品”也是本次工作会议的新提法,也被认为是加强穿透式监管的举措之一。

有业内人士指出,该类产品主要指名不符实的结构性存款、互联网存款、类信贷、影子银行、具有刚性兑付和资金池特征的伪资管产品、风险仍集中于银行体系的债券类产品以及带有“养老”字样不符标准的短期金融产品等等。

不过,会议也指出,要全力支持国内国际双循环。积极探索促进科技创新的各种金融服务。

在进一步提升金融服务整体效能方面,会议指出,保持对经济恢复的必要支持力度。强化对中小微企业的金融支持,持续加大首贷、续贷、信用贷款、中长期贷款投放力度。加强民生领域金融支持。推动发展养老、健康、责任、巨灾等保险。保护消费者合法权益。

]]>
风控与安全 //www.drvow.com/category/DataSecurity /yhkEQ1ty657ZXkue.html#comments Sun, 31 Jan 2021 02:10:00 +0800
明晚8点|融慧金科董事长兼CEO王劲:消费信贷风控管理的「五大原则」和「实操经验」 //www.drvow.com/category/DataSecurity /f9v1dCKbBAMYcO8x.html 银行如何才能快速构建好其自主风控能力?

在融慧金科CEO王劲看来,与风控企业合作共赢才是银行的“最优选”。

王劲曾是百度金融的CRO,也曾在有着“风控黄埔军校”之称的美国运通工作17年,负责过全球各国各类产品相关的700余个模型提供政策制度和独立监控。

从丰富的国内外风控经验出发,王劲认为,数据规范和治理体系不健全,数据质量差且缺失率高,技术能力不足,复合型科技人才匮乏等因素都是银行等金融机构无法做好风控模型的重要原因。

银行不仅需要了解金融风险的种类,还要对企业或者机构的风险管理架构和原则有一个明晰的认知,才能最大限度上减少风险到来时的损失。

明晚8点,雷锋网《银行业AI生态云峰会》邀请到王劲作为「数字化风控」赛道的科技专家,为大家带来其多年在银行智能信贷风控的管理理念和应用实践。

嘉宾分享议程

王劲  前百度金融CRO,融慧金科董事长兼CEO

简介:王劲是原美国运通公司高级副总裁,前百度副总裁、百度金融服务事业群组副总经理。

在运通的17年间,王劲曾负责为全球各国各类产品(包括个人、小企业信用卡和大中型企业商务卡)相关的700余个模型提供政策制度和独立监控;主管企业级模型验证,组建了对公司全球业务管理与资本相关模型进行监督总控的独立职能部门,首创了行业领先的模型风险管理体系和支撑系统,历任各核心产品、客户群和职能部门重要领导职务,负责风险与信息管理,在风险管理、计量模型和数据分析领域拥有丰富经验。

王劲曾就读于复旦大学核物理专业,在美国密歇根州立大学获物理学博士和金融工商管理硕士学位。

演讲主题:《银行智能信贷风控的管理理念与实践》

演讲时间:2021年1月27日,晚上20:00——21:00

演讲大纲

(一)金融机构做好风险管理平衡的核心要素

(二)卓越风控模型建设的必备能力

(三)金融动态风险管理的核心关注点有哪些

如何听课(观看直播)?

  1. 关注公众号:“AI金融评论”

  2. 对话框发送关键词“参会”,即可进入专家微信群观看直播,与技术大佬谈笑风生。

课程面向人群

  • 人工智能与金融科技企业高管、研究员

  • 高校计算机、人工智能教授与研究生

  • 银行的科技与研发部门主管

  • 对人工智能在金融领域应用有浓厚兴趣的人

]]>
风控与安全 //www.drvow.com/category/DataSecurity /f9v1dCKbBAMYcO8x.html#comments Tue, 26 Jan 2021 21:05:00 +0800
1679万笔数据被盗?交行声明:黑客未入侵,客户信息未泄漏 //www.drvow.com/category/DataSecurity /WR45Kdn01MwzIX9e.html 近日,有黑客在国外暗网发帖,以8.8比特币(约200万人民币)的总价售卖中国交通银行1679万笔数据。同时,黑客还在网络上放出部分数据样本截图,包括名字、性别、卡号、身份证号、所在城市、工作单位等私人信息。

针对这一消息,1月11日交通银行发布公告称:“不存在黑客入侵,不存在客户信息泄漏。”

以下为交通银行官网公告原文:近日,我行监测到,有不法分子在暗网发帖贩卖所谓交行客户信息,并有部分自媒体转发相关信息。经系统核查比对,确认与我行真实客户信息不符。

我行郑重声明,不存在黑客入侵,不存在客户信息泄漏。我行已就相关违法行为向公安部门报案,依法追究损害我行商誉行为的法律责任。

我行始终高度重视数据安全保护工作,通过部署多层次网络安全纵深防御措施,切实保障客户信息安全。我行将积极配合相关部门严厉打击伪造贩卖公民信息、恶意造谣扰乱金融秩序的不法行为。(雷锋网)

]]>
风控与安全 //www.drvow.com/category/DataSecurity /WR45Kdn01MwzIX9e.html#comments Mon, 11 Jan 2021 18:19:00 +0800
银保监会2021年首批罚单公布:总额2亿,工行、国开行、邮储被罚 //www.drvow.com/category/DataSecurity /etdZ9Dh4WKl4PrIB.html

雷锋网按:近日,银保监会一次性对7家金融机构,开出21张罚单,这也是今年银保监会公布的首批罚单。

银保监会对工商银行、国家开发银行、邮储银行、国银租赁、长城资管、长城新盛信托、长城华西银行,及相关责任人员依法作出行政处罚决定,处罚金额合计1.995亿元。

关于违法违规的案例,主要涉及到以下层面:

  • 风险管理不当

  • 理财产品/投资业务违规

  • 信息披露不到位/虚假信息

  • 为违规的政府购买服务项目提供融资

  • 关键岗位未进行实质性轮岗

罚单公布后,多家机构也马上予以回应。

工商银行:23项违规,5470万罚款

根据处罚信息公开表,工行涉及的违法违规案由包括以下23项:

一、未按规定将案件风险事件确认为案件并报送案件信息确认报告;二、关键岗位未进行实质性轮岗;三、法人账户日间透支业务存在资金用途管理的风险漏洞;四、为同业投资业务提供隐性担保;五、理财产品通过申购/赎回净值型理财产品调节收益;六、非标准化债权资产限额测算不准确;七、理财资金通过投资集合资金信托计划优先级的方式变相放大劣后级受益人的杠杆比例;八、部分重点领域业务未向监管部门真实反映;九、为违规的政府购买服务项目提供融资;十、理财资金违规用于缴纳或置换土地款;十一、通过转让分级互投实现不良资产虚假出表;十二、理财资金投资本行不良资产或不良资产收益权;十三、面向一般个人客户发行的理财产品投资权益性资产;十四、理财资金投资他行信贷资产收益权或非标资产收益权;十五、全权委托业务不规范;十六、用其他资金支付结构性存款收益;十七、自营贷款承接本行理财融资、贷款用途管理不尽职;十八、理财资金承接本行自营贷款;十九、封闭式理财产品相互交易调节收益;二十、滚动发行产品承接风险资产,且按原价交易调节收益;二十一、高净值客户认定不审慎;二十二、理财产品信息披露不到位;二十三、部分理财产品在全国银行业理财信息登记系统中未登记或超时限登记。

工商银行回应

对于银保监会对工行等金融机构在交叉金融相关领域检查发现的问题,工行表示,相关事项源自2018年银保监会开展的专项检查,所涉及的问题均发生在2018年以前。工行对此高度重视,已按照监管要求全部整改完毕,并对相关责任人进行了严肃处理。工行将继续坚持从严治行、依法合规经营,对于检查发现的问题,进一步完善业务流程,强化内控管理,切实防范风险。

国家开发银行:24项违规,4880万罚款

针对国家开发银行为违规的政府购买服务项目提供融资、违规收取小微企业贷款承诺费等多项违法违规行为,中国银保监会依法予以罚款4880万元;

针对其附属机构国银租赁不良资产非洁净出表的违法违规行为,依法予以罚款100万元;同时,对2名责任人员予以警告处罚。

具体来看,国开行涉及的违法违规行为共24项,包括:一、为违规的政府购买服务项目提供融资;二、项目资本金管理不到位,棚改贷款项目存在资本金违规抽回情况;三、违规变相发放土地储备贷款;四、设置不合理存款考核要求,以贷转存,虚增存款;五、贷款风险分类不准确;六、向资产管理公司以外的主体批量转让不良信贷资产;七、违规进行信贷资产拆分转让,隐匿信贷资产质量;八、向棚改业务代理结算行强制搭售低收益理财产品;九、扶贫贷款存贷挂钩;十、易地扶贫搬迁贷款“三查”不尽职,部分贷款资金未真正用于扶贫搬迁;十一、未落实同业业务交易对手名单制监管要求;十二、以贷款方式向金融租赁公司提供同业融资,未纳入同业借款业务管理;十三、以协定存款方式吸收同业存款,未纳入同业存款业务管理;十四、风险隔离不到位,违规开展资金池理财业务;十五、未按规定向投资者充分披露理财产品投资非标准化债权资产情况;十六、逾期未整改,屡查屡犯,违规新增业务;十七、利用集团内部交易进行子公司间不良资产非洁净出表;十八、违规收取小微企业贷款承诺费;十九、收取财务顾问费质价不符;二十、利用银团贷款承诺费浮利分费;二十一、向检查组提供虚假整改说明材料;二十二、未如实提供信贷资产转让台账;二十三、案件信息迟报、瞒报;二十四、对以往监管检查中发现的国别风险管理问题整改不到位。

国开行回应:坚决接受处罚,相关问题已整改

国开行在官网发表回应表示,坚决接受处罚,认真落实相关监管意见,已针对为违规的政府购买服务项目提供融资、违规收取小微企业贷款承诺费等问题,采取系列整改措施,并对有关责任人员依法依规严肃问责。

国开行介绍,此次监管处罚所涉及的违法违规行为发生时间集中在2015年至2018年,其中一些是以往年度分行发生的个案。2018年,银保监会对国开行开展了风险管理及内控有效性全面现场检查,国开行高度重视,将现场检查作为一次“全面体检”。在银保监会的指导下,国开行牵头制定整改方案,按照“行为纠正到位、风险控制到位、制度完善到位”的标准,逐项明确整改责任部门、具体措施和完成时限,强力推进整改问责工作,目前相关问题已整改落实到位。

国开行强调称,2020年以来国开行主动开展监管发现问题整改“回头看”,再次检视评估整改措施和成效,确保整改落实到位。下一步,国开行将继续严格落实监管要求,坚持依法合规经营、全面从严治行,继续夯实问题整改质效,不断提升风险防控水平,为开发性金融服务经济社会高质量发展作出新贡献。

邮储银行:26项违规,4550万罚款

针对邮储银行部分分行为非保本理财产品出具保本承诺、出具与事实不符的理财投资清单等多项违法违规行为,中国银保监会依法予以罚款4550万元。

同时,时任中国邮政储蓄银行股份有限公司扬州市分行行长杨卫红、副行长张社建对中国邮政储蓄银行股份有限公司扬州市分行为非保本理财产品出具保本承诺、出具与事实不符的理财投资清单行为负有责任,受到警告处分并分别被罚5万元、10万元。

具体来看,邮储银行涉及的违法违规行为包括以下26项:一、同业投资业务接受第三方金融机构信用担保;二、买入返售项下的金融资产不符合监管规定;三、信贷资产收益权转让业务接受交易对手兜底承诺;四、同业投资按照穿透原则对应至最终债务人未纳入统一授信管理;五、个别产业基金同业投资业务违规投向股权;六、同业投资投前调查不尽职;七、资金违规支付股票定向增发款;八、同业投资资金(通过置换方式)违规投向“四证”不全的房地产项目;九、债务性资金用作固定资产投资项目资本金;十、资金违规通过融资平台公司为地方政府融资;十一、未进行资金投向风险审查和合规性审查;十二、理财投资收益未及时确认为收入;十三、部分分行为非保本理财产品出具保本承诺;十四、出具与事实不符的理财投资清单;十五、投资权益类资产的理财产品违规面向一般个人客户销售;十六、理财投资接受第三方银行信用担保;十七、代客理财资金用于本行自营业务,未实现风险隔离;十八、理财产品相互交易,未实现风险隔离;十九、通过基础资产在理财产品之间的非公允交易人为调节收益;二十、理财风险准备金用于期限错配引发的应收未收利息垫款;二十一、使用非代客资金为理财产品垫款;二十二、未在理财产品存续期内披露非标资产风险状况发生实质性变化的信息;二十三、未按照《保险兼业代理协议》约定收取代销手续费;二十四、债券承销与投资业务未建立“防火墙”制度;二十五、部分重要岗位人员未按照规定期限轮岗;二十六、未按规定披露代销产品信息。

邮储银行回应

邮储银行表示,高度重视监管检查意见,认真对照相关要求,逐项检视问题,明确任务目标,制定整改方案,压实各级责任,强化履职督导,确保整改落实到位。在整改过程中,邮储银行坚持立查立改、举一反三,持续强化重点环节风险管控,不断完善全面风险管理体系,进一步夯实了经营管理基础。

下一步,邮储银行将继续严格落实监管要求,坚持审慎经营理念,持续加强内控合规管理,不断提升风险防控能力,深入推进合规文化建设,保障各项业务健康稳健发展。

长城资管:16项违规,4690万罚款

针对长城资管违规对外提供担保、虚增账面利润和考核利润并超发绩效奖励等16项违法违规行为,中国银保监会依法予以罚款4690万元;

具体来看,长城资管的违法违规案由包括:

一、对附属法人机构管理失职;二、违反财务制度超支管理费;三、向监管部门报告的内部交易信息不实;四、虚增账面利润和考核利润,超发绩效奖励;五、未按规定比例延期支付绩效薪酬;六、通过内部交易掩盖风险;七、通过不当展期、延期等方式掩盖风险,未按规定进行资产风险分类;八、“三查”严重不审慎,个别项目出现重大风险;九、非洁净转让债权资产,集团客户集中度超监管规定;十、违规收购金融机构非不良资产和违规收购个人贷款;十一、收购小贷公司债权并反委托保底清收,变相向小贷公司融资;十二、收购信托公司资产不符合真实性、洁净性原则,变相提供融资,单一客户集中度超监管规定;十三、违规办理保理业务变相收购非金融机构非不良资产;十四、为银行规避资产质量监管提供通道;十五、违规对外提供担保;十六、向房地产开发企业提供融资用于缴纳土地出让金。

针对其附属机构长城新盛信托违规设立子公司、抵押物评估严重不审慎的违法违规行为,依法予以罚款150万元;针对其另一附属机构长城华西银行违规接受本行股权作为质物向股东提供融资的违法违规行为,依法予以罚款50万元;同时,对9名责任人员分别予以警告并处罚款5万元的行政处罚,对1名责任人员予以警告处罚。银保监会表示,“本次行政处罚主要基于我会前期对长城资管风险管理及内控有效性现场检查发现的违法违规行为,桑自国严重违纪违法案涉及的相关事实由有权机关另案处理。”

长城资管回应

针对今日银保监会公布的行政处罚的决定,长城资管表示,对此高度重视,坚决接受处罚,认真落实监管要求,全面推进整改。此次处罚涉及问题,系2017年10月银监会现场检查中发现,集中发生在2013年至2017年3季度末,揭示了公司以往年度经营管理中存在的薄弱环节。公司已经按照监管部门要求认真落实整改,目前已基本整改完毕,同时对有关责任人员依法依规进行了严肃问责。

雷锋网雷锋网

来源:银保监会网站、中华网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /etdZ9Dh4WKl4PrIB.html#comments Sun, 10 Jan 2021 12:26:00 +0800
直播|保卫银行“生命线”,微众银行严强论数据安全的道与术 //www.drvow.com/category/DataSecurity /6dokTqgruLFPdmo1.html 我们一边享受着数据爆发式增长带来的便利,一边也困在数据安全中难以自拔。小到诈骗短信、快递信息,大到财务状况、健康状况、网络足迹,我们的个人隐私数据面临着前所未有的挑战。

而对于银行来说,数据安全更是一条“生命线”。一次事故的发生,可能造成亿万级的损失,千千万万家庭将受到影响。

值此跨年之际,雷锋网以「线上云峰会」的形式,邀请数字化风控、数字化营销、数字化客服、数据平台、数据中台、数据安全、数据库、银行云、银行RPA、银行业务系统,十大银行赛道里的科技专家,分享他们对于银行科技的理解。

在「数据安全」这一赛道,我们邀请到微众银行区块链安全科学家严强博士,他将从技术、业务、合规等角度,分享他对于银行「数据安全」的理解。

嘉宾分享议程

严强  微众银行区块链安全科学家

简介:严强,新加坡管理大学信息系统专业博士,系统安全、隐私保护、信息安全技术专家。

他曾作为Google隐私保护基础技术架构部门唯一来自中国的早期核心成员,一线参与支撑Google全产品线海量用户数据的隐私保护前沿技术研发和核心基础架构建设。

目前,他主要负责微众银行场景式隐私保护高效解决方案WeDPR的研发和应用,同时作为FISCO BCOS高级架构师,负责区块链底层数据安全和隐私相关核心特性的攻坚研发,并参与多项相关国际、国家技术标准的制定和维护。

演讲主题:《数字经济时代,隐私保护的道与术》

演讲时间:2020年12月24日,晚上8—9点

演讲大纲:

  1. 技术面的挑战——5G、物联网、分布式数据协作带来了全新的安全要求

  2. 业务面的挑战——个人对数据的作用认知越来越深,恶意数据对抗将成为常态

  3. 合规面的挑战——数据权益立法完善,跨地域合规体系对AI使用的合规性安全要求不可小觑

  4. 微众银行在数字新基建领域的前沿探索——保障数据安全隐私,解放数据生产力的技术基础设施建设

如何参会?

关注公众号《AI金融评论》,在公众号对话框回复关键词“参会”,即可进群观看直播。雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /6dokTqgruLFPdmo1.html#comments Thu, 24 Dec 2020 21:30:00 +0800
华控清交CEO张旭东:数据的交易流通之痛与隐私计算之道 //www.drvow.com/category/DataSecurity /wZIM99Odri7wdzVI.html 土地、劳动力、资本、技术之后的第五种生产要素是什么?数据。

数据的安全有序有效流动问题,学术界和业界“解法”众多,要让技术理论真正进入到应用落地的进程绝非易事。

为此,雷锋网《AI金融评论》率先推出了《金融联邦学习公开课》系列,并与HKSAIR(香港人工智能与机器人学会)联手打造了《AI金融-隐私计算与联邦学习》系列公开课,十余位国内联邦学习与隐私计算顶尖专家做客线上讲堂,就相关研究热点与商业应用展开最前沿的分享和讨论。

近期,《AI金融评论》邀请到了华控清交CEO张旭东做客雷锋网公开课,谈谈他眼中的数据隐私保护技术,以及华控清交一系列工程化研究的探索和实践。

以下为张旭东公开课全文,AI金融评论做了不改变原意的编辑:

数据的现实生态

数据是数字经济的关键生产要素。从农业社会到工业社会再到信息时代,直到我们现在开始进入数字经济时代,每个社会发展阶段都有一种生产要素是最重要的和最难替代的。

目前党和国家对数据要素化的认识程度在不断加深,从2014年开始,习主席谈到信息日益成为重要的生产要素,到去年四中全会,包括在今年的6月1号,国务院关于海南自由贸易港建设的总体方案中,都提到了数据要素化,数据要流通、挖掘价值。

数字经济时代,数据是在人类生活和生产过程中,对自然资源和社会资源在分配和使用上进行优化的决策依据。

首先,我们来看看作为生产要素的数据,为什么要交易流通?

第一,生产要素的价格,是它参与社会化大分工的分配依据。国家讲得很清楚,要健全数据等生产要素,由市场评价贡献、按贡献决定报酬的机制,其中就提到了市场化的定价。价格是报酬的决定因素,数据作为生产化要素的报酬,那么如何形成定价呢?

这就需要流通,需要由市场来进行,需要由供需来决定。

我们用一个模型算出来这个数据值多少钱,是不是它的价格?不是,因为没有通过市场供需关系的检验,所以,数据的价格由市场决定,由市场供需决定,使数据成为生产要素的关键需要由市场供需决定,就需要流通。

那么,既然数据作为生产要素需要交易流通并进行定价,为什么现在为止还没有大规模的数据流通,没有大规模的数据要素市场?难在哪里?缺什么?

数据成为生产要素的难点和解题之道

从数据特性来看,数据是一个很特殊的生产要素,其特征是复制成本极低,复制速度奇快,传播速度也极快。数据一旦被看见,包括被人看见或者被机器看见,都可以被复制,而且是可以被无限制地复制。

在简单的经典经济学理论上,供需要有两根曲线相交,才能形成价格。明文数据的特点,使得它的供应和需求都是无限的,供应和需求两根线无法形成一个焦点,很难通过市场供需进行定价,并形成大规模的市场交易流通。

再者,数据还存在一些群体性和公众性的泄露或滥用的问题,这些可能会影响整个群体甚至国家的利益。如果出了事,谁负责?获得利益后,该怎么处理?权利应该怎么主张?原始数据、二手数据、再生数据等,不同方又有什么样不同的权益和责任?

这么多问题,目前要把它整盘解决,还需要很长的时间、需要实践和探索。我认为没有一个完美的答案——会有很多取舍,关键是取什么?舍什么?

从数据价值来看,我们可以把它分为信息价值和计算价值

以波粒二象性打个比喻——数据有可以被展示或者被看见的具体信息,而另外一方面,数据虽然看不见,但是可以被用于计算得出结果,这就类似量子力学中的粒子和波。粒子是有形的,波是无形的,但是他们同样传播能量。

在目前大数据和人工智能的时代,我们也把数据比作新的能量——数据能,而数据的主要价值越来越多的体现在它的计算价值。 

那么,数据交易流通的前提和形态是什么?

因为明文数据的特征和特性,无法进行大规模的交易和流通。所以必须把数据的具体信息和计算价值分开,把数据作为变成可用不可见,避免被看见后造成无限供应和无限使用。

计算价值怎么办?能不能对数据的计算价值进行限制,只有规定数据的价值,才能对数据的使用权进行定性、定量,形成有限的供应和需求,才能让这两根线竖起来形成焦点,同时避免、防止数据被滥用,厘清数据的责、权、利。

如何能够做到以上两点,通过市场供需进行定价和大规模流通的是什么?既不是数据本身,也不是明文数据,而是数据的特定使用权

目前,大家谈到数据时,就会谈到数据确权和交易流通。这儿先抛出一个观点,就是:过早、过严、过窄地定义和规定数据的所有权,在法律上可能会制约数据产业和数据生态的发展。目前,要通过实践积累、摸索经验,反复的试验,才能够把这件事做好。

数据确权的难处,只能点到为止。交易和流通需要生态,其中更重要的是,需要数据和资本的结合,才能使数据的交易流通、要素化大规模发展。

现在,数据还不是法律和金融意义上的资产。“可用不可见”加上规定用途和规定用量,可以实现数据的归属权、使用权、收益权和处置权的分立,为数据真正成为资产,成为生产要素奠定技术基础。最后使它变成法律和金融意义上的资产的,不是技术,而是法律法规对其进行保障。

在目前数据确权相关法律法规还不健全的情况下,是不是可以进行尝试,使数据交易流通?可能性是有的。也只有这么做才能反过来为数据的确权真正提供有益的实践和探索。

怎么做?利用数据的可用不可见和规定用途、用量的技术手段,把它的使用权和受益权抽取出来。只针对使用权和受益权,在目前这个阶段,已经足够让数据进行先期的交易和流通,为后期的进一步的数据确权积累经验。  

怎么才能做到可用不可见,又如何规定数据的用途用量?

隐私计算如何打破数据壁垒,构建社会化数据闭环

数据可用不可见的基础理论叫多方安全计算理论(MPC——multi party competition),由姚期智先生提出。安全是前提,没有安全就没有多方。

他通过两篇论文,提出了百万富翁问题:两个百万富翁碰到后,相互都不愿意告诉对方有多少钱,也没有一个可信第三方,怎么把这个比较做出来?

姚期智先生在86年从数学上证明,凡是可以在明文上进行的技术,都可以在密文上进行计算,而且得出同样的结果。现在多方安全计算成了密码学的一个重要分支。多方安全计算理论属于密码学范畴,是经过严密的数学论证的,它的安全假设是不信任硬件,不信任人。

在明文计算体制当中,数据存储的加密技术、安全技术已经很发达,就像洋葱,里边有个宝贝,一层一层包起来,装进保险箱,再装进地下室,然后把钥匙全拿走。

在这种情况下,唯独在它进入芯片进行计算之前,必须解码、解密成明文,才能编译成指令集,输入计算机进行计算,得出的是明文的结果,然后赶紧再包藏起来,进行传输。而在它解密成明文进行编译、计算的时候,从理论上和实践上都是不安全的——它要么要相信硬件,要么相信软件,要么相信人。

多方安全计算理论,可以使数据在密文上直接进行计算,所以它可以不相信硬件,可以不相信软件。

举个不一定恰当的例子,就好像去澡堂洗澡,在明文范畴内,你穿着衣服,从头到脚全副武装进去洗澡,很安全,不知道你是谁,但是到了澡堂之前,你必须裸露后才能洗澡,洗完后赶紧用毛巾擦干,恢复原状。

但是,在澡堂子里洗的过程安全吗?澡堂子是谁造的?谁管的?你能相信硬件,相信软件没有后门,相信管理这些硬件软件的人吗?

所以,多方安全计算做的就是穿着衣服洗澡,当然耗费大一点,水要用的很多,但洗完了以后出来还是完全盖住的。

在这个理论刚提出的八十年代,算力耗费之多,使得它只是在理论上成立,如今分布式计算、通讯科技的发展,则使它具备初步的实用性。

华控清交实现了基于多方安全计算,把多种基于明文的隐私计算技术(比如数据脱敏、差分隐私,联邦学习、可信计算等等)融合在一起形成的隐私计算解决方案,解决的是计算的准确性、保密性和计算效率之间的优化等关键问题。

那么,怎么从理论到实践,做到让数据可用不可见?

华控清交的数据要素化探索和实践

我们把加法、乘法和比较通过密码学原理,从根本上用密文的形式替代了明文,重新把通用函数和机器学习深度学习的工具密文化,可以像在明文上编程一样,做到可用不可见的底层逻辑。

同时,我们还综合应用了基于明文的隐私计算技术,实现了明文和密文的混合计算,在不同的场景下可以完成隐私查询、联合建模等实际应用。

如何实现的呢?拿电话来举例——人看不见,声音听得见,比喻可用不可见。

我们的隐私计算服务就如同“交换机”,负责按照数据提供房和数据使用方之间的数据计算合约,调配算力执行隐私计算,并把计算结果给到合约指定的结果计算方。它是数据共享与流通的计算控制站和算力调配中心,是隐私保护计算和高效算力的结合体。

数据接入节点就如同“电话机”,部署在数据端,把明文数据转换成计算因子或将密文计算结果解算成明文。而计算因子本身不承载任何可以“看见”的具体信息,是数据计算价值的载体。这些理论是通过密码学和数学严密论证的。

那么,数据程控交换机可以连接多台电话机,叠加起来、组合起来的就是数据电网,就如同国家对数据要素进行监测管理和宏观调控的神经系统和基础设置,助力数据要素化。

这种基于合约的隐私计算技术,能够有效打通社会化数据闭环,使数据真正成为生产要素。

雷锋网雷锋网雷锋网


]]>
风控与安全 //www.drvow.com/category/DataSecurity /wZIM99Odri7wdzVI.html#comments Mon, 19 Oct 2020 16:24:00 +0800
前百度金融CRO王劲对话前美国运通CRO Ash Gupta:透视疫情风暴中的金融科技危与机 //www.drvow.com/category/DataSecurity /rk12OSlANpm3yTwZ.html 近日,融慧金科董事长兼CEO王劲以远程连线的方式,就“2020年金融机构的危机与机遇”话题,采访了前美国运通CRO、全球风险和信息管理总裁Ash Gupta。

王劲曾是前百度金融风控负责人,曾任美国运通公司高级副总裁;他在运通的十七年职业生涯,正是在Ash Gupta的领导下度过。

雷锋网AI金融评论现将王劲与Ash Gupta的部分对话译文分享如下:


1.新冠疫情的爆发对全球金融机构有什么影响?

Ash认为,从短期来看,金融机构的盈利能力已经下降至50%-100%之间,回款变慢,现金流不乐观,但风险抵补能力较为充足,机构的流动性或可持续经营能力目前不受影响。从中长期来看,全球金融机构的坏账率和不良贷款率都会上升,当前呈现出的良好态势在未来的发展演变中可能充满风险,因此,Ash认为当前绝对不能放松防守。

随着疫情的爆发,大型企业也可能会进行大量裁员,在这种情况下,经济环境将会较现在进一步恶化,所以,我们需要提前为未来做好充分准备。此外,Ash也分析了疫情对金融科技公司的影响,他表示,整体贷款量多少并不是业务成功的决定因素,还需要与贷款质量结合来看。放款很简单,款项回收才是业务成功的关键。

2.这次新冠危机与2008年的金融危机,有何不同?

Ash表示,此次新冠危机与2009年的金融危机非常相似,因为它对每一个人,每一个公司,甚至每一个国家都带来了深刻影响。

但两次危机在很多方面又有着不同之处,基于此,Ash也作了详细分析。在Ash看来,这些现状与现有的金融科技技术革命是相辅相成的,相较于上次金融危机,这些新技术让我们能够更快速地研究数据并找到对应的解决方案。

3.危机与机遇常常并存, 在这场危机下还有哪些机会?

我们做任何事,都要将客户置于一切工作的中心,对此,Ash也发表了自己的深入见解。另外他还指出,现在我们需要考虑的是,如何在充分获取客户授权的前提下,采用最适合客户的方式在合适的时间触达他们。

Ash认为,在中国对于不富裕的人来说,金融服务的成本将会下降,无论是利率还是交易成本都有可能降低。市场的效率必须通过更有效的运营和合理的定价去实现。只有这样,才能达到全面的普惠金融。

4. 危机过后,金融业的发展方向将如何变化?

Ash认为,我们所采取的每一个负责任地为客户服务的行动,都应当对我们的员工和客户保持完全公开透明。同时,Ash也分享了他是如何帮助公司快速走出2008年金融危机衰退期的。

Ash认为,我们应该认识到,品牌就是在这种危机时刻建立起来的。 银行是存款机构,当客户因为你的品牌把钱存在你那里,你就获得了客户永久的信任。

(雷锋网)

]]>
风控与安全 //www.drvow.com/category/DataSecurity /rk12OSlANpm3yTwZ.html#comments Fri, 28 Aug 2020 08:56:00 +0800
声扬科技CTO陈东鹏:声纹识别将是金融风控的下一个“爆点” //www.drvow.com/category/DataSecurity /VbxKfz3i8yYBwQxT.html

这个时代的滑稽和伟大之处皆在于,我们每天要证明自己是自己。

在淘宝上购买一件衣服,你需要扫一扫「人脸识别」,证明一下你是你;去公司上下班,你需要点一点「指纹识别」,证明一下你是你;如果你在银行、政府单位的“重要场景”中工作,你还得接受一下「虹膜识别」,证明一下你的确是你。

而上述这些技术,统称为生物识别。声纹识别便是其中之一。

声纹识别也被称为「说话人识别」,它最主要的功能是确认说话人的身份。和其他生物识别技术一样,它也有自己的“不可替代性”。

和指纹识别技术不同的是,声纹识别技术可以做到无感知、零接触,你不需要用手指触摸那一块留下无数人细菌和病菌的部位;而相比于人脸识别,在疫情期间,人们带着口罩依然可以使用声纹识别技术。

声扬科技是一家专注于“声音科技”的公司,在声纹技术上深耕多年。

声扬科技联合创始人、CTO陈东鹏博士认为,现代社会,远程交互方式越来越多,在一些特定的智能硬件场景中,只允许语音的方式进行交互,没有办法通过人脸或者指纹来采集到身份信息,所以在这些场景下,声纹识别是唯一一种可以确认人们身份信息的生物识别方式。

声纹识别不仅具有唯一性,而且应用范围十分广泛。

根据美国哈佛商学院有关研究人员的分析资料表明,人的大脑每天通过五种感官接受外部信息,其中视觉占83%,听觉仅次于视觉,占比11%,人们每天要接听各种各样的“声音”。

而作为声音领域的技术之一,声纹识别也在逐渐扩大自己在人类生活中的影响力。

目前,声扬科技通过声纹识别技术在金融、社保、公安、智能硬件等领域落地了很多场景。

“比如在金融场景中,当客户呼入热线电话,金融机构就可以通过声纹技术自动识别客户的身份;当客户想远程开户、开卡或者线上支付,金融机构也可以通过声纹识别技术确认客户身份,降低客户账户被盗用的风险。”陈东鹏说到。

目前,工商银行、恒丰银行、重庆银行等金融机构已经相继采用了声扬科技的产品,并取得不错的效果。

工行“利器”

2020年,是金融科技发展的重要一年,央行和五大行的金融科技子公司不仅全部建成,而且它们还与各家金融科技创企频频合作。

其中,工商银行首创的声纹风控模式,于今年6月在北京、湖北、四川、陕西4家分行上线,投产上线仅一周,累计交易逾万笔,成功防堵欺诈数十笔,挽回经济损失数十万元。而工行官网中的产品项目披露显示,其背后的声纹识别技术提供方,就是声扬科技。

声扬科技CTO陈东鹏表示,刚接触工行时,声扬科技公司总共只有20多人,对于工行这种大体量的银行来说,很少会采购小公司的产品,但是声扬科技在这两年时间里一直坚持完成了工行所有的严格测试,经历了三轮POC测试,每一轮都是以技术分第一的成绩通过,因此得到了工行的亲睐。

银行一直是欺诈分子最容易直接获得利益的行业之一,也是欺诈发生的“重灾区”。欺诈分子会冒充其他人的身份,拿其他人的ID重复申请信用卡,骗取钱财。现在银行的开卡服务都是线上的,使得这类欺诈操作更方便进行。

“每个人的声纹都是独一无二的,有了声纹识别之后,银行可以轻易地识别出频繁开卡的“声音”,把它的风险等级提高并做进一步的排查,显著地降低了银行的坏账率。”陈东鹏说。

此外,声扬科技还为恒丰银行提供了声纹识别技术,主要用于手机银行的登录。客户通过声纹登陆手机银行,而客户的声纹会给银行的后续风控提供“基础”。当有人用声纹信息登录手机或者电话交易的时候,银行可以通过即时的比对声音,判断身份,提前防控风险。

去年,平安壹账通在客服场景中还应用了声扬科技的声纹识别技术。在客服质检领域,声纹识别技术把客服和客户的语音分开,基于原有的海量电话录音数据,平安壹账通可以方便快捷地分析客服的服务质量。

陈东鹏介绍到:”第一步,通过我们提供的声纹识别技术,金融机构可以把客服和客户的声音分开。当客户的声音独立开来后,金融机构可以使用后续的其他技术,比如语音识别等。智能语音处理技术能够精确的去追踪客服说了什么、客户说了什么,通过对这些内容进行分析,可以提高客服的服务质量和客户的满意度。”

 遇到“瓶颈”

当然,专注“声纹识别技术”的公司并非一帆风顺,现阶段的发展仍遇到诸多难题。

陈东鹏说:“声音的传播很容易受到周围环境的干扰,比如噪声、回声、人声都会影响声纹识别。”

他认为,目前这些问题还都没有被业内专家彻底解决,只能说回声等部分问题的处理方法已经做的比较好;而噪声也可以通过深度学习这种基于海量数据的训练来作为一个很好的提升;在硬件方面,更“宽敞”的通信信道,能够更好地保护音质。

此外,如果你用完全不同的通信设备来进行注册和验证,声纹识别的准确率也会受到一定影响。

“声纹识别的适用范围,一般距离设备2~5米,而人类一般可以听到10米范围内的对话。如何扩大声纹识的适用范围,也是科技公司需要攻克的难题。”陈东鹏说。

声纹识别只是一种单一的技术,它不能解决所有的技术问题。它仍需要跟其他的技术相结合,才能形成最大的合力。

在非常重要的核实身份的场景下,人们通常会选择两种或者三种身份认证模式。目前,大多数有实力的金融机构都会采用多模态的风控,这种风控方式大大提升了识别身份的准确率。

陈东鹏举例:“我们和一家行业领先的人脸识别技术提供商合作做一款双录认证产品。客户它只需要对着摄像头说几个数字,就同时完成了人脸+声纹的双重认证。这样的错误率会比百万分之一还要低,既安全又方便。”

“同时,声纹识别也在这个过程中也替代了人脸活体检测,因为你在念这些数字的时候,不需要像传统人脸识别那样做那些张嘴、眨眼等摇头晃脑的动作了,声纹识别的体验非常的自然。”陈东鹏说。

等风来

随着技术的不断突破,声纹识别市场和应用场景也被逐步打开。

据前瞻产业研究院分析,当下全球生物识别产业规模庞大,仅声纹识别这一细分方向的市场规模2020年有望超过1400亿元人民币,占整个生物识别市场的22.4%。

目前关于声纹识别的应用也越来越多,例如在智能硬件领域,国外的科技巨头谷歌公司便推出了一款声纹支付的支付方式,它的原理是根据每个人声音的不同特点从而进行个体化的支付。这种支付方式已经被谷歌公司应用到智能音箱中,相比二维码支付、指纹支付和人脸支付,它具有更高的便捷性,这项技术不仅可以用于金融支付,还可以用于一些防盗系统或是门禁。

在国内,华为也推出了支持声纹识别的手机Mate 20 Pro,打开了消费电子领域的应用市场。我们在配搭耳机的时候只需要说出“微信支付”或“支付宝支付”,手机就会自动解锁并展示对应的二维码。国内的智能音箱品牌——天猫精灵也具备声纹识别的功能,绑定声纹之后人们可以用它来完成点外卖、网购、交话费等支付操作。

对此,陈东鹏说:“凡是涉及到语音交互的地方,都是声纹可以发挥作用的场景。”

未来随着5G、大数据、云计算等新技术发展愈发成熟、语音的入口更普及,可利用的语音数据会越来越多,声纹识别市场将迎来爆发。

当被问及声纹识别技术的未来发展时,陈东鹏很有信心,他说道:“目前整个市场还处在爆发期,随着工商银行等行业巨头开始应用和大规模推广声纹风控模式,其他银行势必将加快速度跟上前行者的脚步。”(雷锋网雷锋网雷锋网)

]]>
风控与安全 //www.drvow.com/category/DataSecurity /VbxKfz3i8yYBwQxT.html#comments Thu, 20 Aug 2020 15:05:00 +0800
微众银行首席AI官杨强:联邦学习,重塑金融范式 | CCF-GAIR 2020 //www.drvow.com/category/DataSecurity /nSLAe7gukKsltzAT.html

2020年8月7日-9日,第五届CCF-GAIR全球人工智能与机器人峰会,于深圳隆重举办。此次峰会由中国计算机学会主办,香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。

在8月9日的「AI金融专场」中,《AI金融评论》邀请了6位最具代表性的顶尖AI金融专家,分享能够代表未来10年风向的智能技术方法论、产品逻辑和风险管理理念。

首先登场的,是微众银行首席AI官杨强教授。联邦学习和隐私计算,是今年所有金融巨鳄和科技寡头们,都在重点布局的重要技术方向。作为这一领域的全球领军人物,杨强也在会上带来了他在前沿研究与产业应用的真知灼见。

以下为杨强教授演讲全文,雷锋网AI金融评论做了不改变原意的整理:

先简单介绍一下,微众到现在有五年的历史了,目前有大概两亿的个人用户,还有将近百万的小微企业用户。这么短的时间可以获得这么大的用户群,应该说很大程度上是取决于技术上的创新,包括云计算、大数据和人工智能。

其中一大亮点就是做连接,把不同的企业连接成一个生态。在这个过程当中,AI是不可或缺的——正如今天的主题:AI到底在金融界能起到什么作用?

我们在很短的时间内汇聚了很多人才,这些人才主要在四个方面把互联网银行大致规模化、模型化了。这四个团队把微众银行内部和外部的业务过程、经验总结成了模型,这些模型可以供应给其他行业一键下载、一键装配,比如可以做营销、服务、资产管理,把金融的前台和后台都包括了。

迁移学习和联邦学习也是如今比较突出的两项技术,可以把整个金融业务再往前推进一步。

 

我们可以把未来的银行想像成从左到右的流程,最左边的是获客,这是任何企业都需要做的,要找到有价值的客户,对客户进行安全评估、风险信用评估,尽早发现可能的欺诈行为。

评估办法之一是参考央行的征信数据,但国内很多人没有征信数据(信用分),而且它只是一个维度,所以我们需要把维度变得更加丰富。

还有运营、监管、对沉睡用户的唤醒、7×24小时的客户服务,里面都有人工智能的影子。

分布性数据隐私保护、联合建模的挑战和需求

在所有这些过程当中有一个主线:如何能够顺利把尽量多的数据用起来。

我们联邦学习的宗旨是数据不动模型动,这是一个做法,目标就是数据可用不可见:数据可以用,但是别人的数据我是见不到的,所以可以把数据加入到生态里面来共同建模,一些散乱的小数据就可以成为虚拟的大数据,这是我们的思想。

这个思想的初衷其实是,现在很多行业并没有真正意义上的大数据,像在金融里面有很多的数据,其实是黑天鹅现象。比方说在反洗钱应用中用于模型训练的洗钱案例,其实数量并没有想象中那么多,还是属于少数现象。这种数据拿它来训练,效果不是很好。

如果要用人工智能改变很多行业的话,其实都没有高质量、有标注、不断更新的数据。

第四范式公司在实践当中就发现,如果要为大额贷款做一个营销模型或风控模型,数据往往是在上百例以内,这点样本是没有办法训练一个好的深度模型的,所以他们的做法是从小额贷款到大额贷款做迁移学习。

每个人也都有手机,手机都是联到云端的,每个手机上的数据,每时每刻都在更新,都有新的图片、新的声音、新的文章可以点击,每个手机上的信息又是私密的,如何保证私密不传出去,又能让云端的大数据模型得到更新呢?

大家都熟悉无人车,比如有一千辆无人车,每辆车见到的数据都是有限的,我们能不能让一千辆车的数据汇聚成一个虚拟的大数据,同时又不暴露某个车看到的某个场景?

这就是分布性数据隐私、联合建模的挑战和需求——能不能把小数据聚合起来成为大数据?

问题是,现在监管和社会的要求也非常严格,老百姓、社会对于技术工作者的要求是首先要保护隐私。政府也纷纷立法,比如欧洲建立了GDPR的数据法规。 

我们国内也有相关的保护法,在国家层面、地区层面,大家都在探索类似于、甚至更加严格于GDPR的数据法规。所以,简单粗暴地把数据从A传到B是违法的。

透视联邦学习

联邦学习,“邦”的意思是每个实体参与者地位都是相同的,无论大小,提供的价值才是他们存在的意义。“联”就是用一种方式把它们联起来,把隐私保护起来,同时又可以做一些有意义的事情。 

用一个简单的例子来解释:假设用一只羊来类比机器学习模型,草就是数据,我们希望羊吃了草以后能够长大。

过去的做法是,把草买到一起来建立模型。比方说左边的模型,左边的箭头是指向羊的。羊不动,但是草被购买到中心。相当于简单粗暴地获取数据,形成大数据,来建立模型。

但我们希望能够保护各自的隐私,所以让草不动,让羊动。这样羊既能吃那个地方的草,主人又不知道到底吃了哪些草,久而久之羊就长大了——这个就是联邦学习的新思路,就是让草不出草场,本地主人无法知道羊吃了哪些草,但是羊还是长大了。

这个思想的关键是,当我们的模型从一个地方传到另外一个地方的时候,要传尽量少的东西,同时传的模型参数要被加密。图右这些带有一个框的W就是加密的意思,在本地加密,就只能在本地解密。

现在有一种穿透式的加密,把所有的加密包放在云端的时候,还可以对它进行更新操作。比如对这个模型的集成更新,用集成学习。

谷歌就提出了“对模型联邦平均”的做法,还有其他比较复杂的方法如神经网络等。

这种做法分两种数据格式,一种格式是把样本分割,放在终端,像图左边所表示的一样,这是横向联邦。

还有一种是纵向联邦,沿着特征把数据分成几块,每一块属于一个机构。比如有两家医院,双方数据可能在用户上有很多重叠,可是在特征上面没有很多重复。比如其中一家医院做的是胸片,另外一家做的是核酸检测,如果联合就可以做更好的模型。

但出于隐私或利益等原因,他们不愿意互传。这时就可以用如图所示的方式,可以让一方的数据在加密状态下传到另一方,参与模型更新,重复多次后得到最优化的模型。有新用户的时候也是通过加密传输,使中间结果得到运算。

纵向联邦适合to B的场景,横向联邦适合to C的场景。谷歌用的比较多的是横向,我们微众用的比较多的就是纵向,当然也有混合的用法,横向中有纵向,纵向中有横向。

在座的朋友们可能会问,联邦学习跟以前的分布式AI、参数服务器、联邦数据库有什么区别?

过去,分布式AI和联邦数据库里面,数据的形态、分布、表征都是一样的,是同类的。在联邦学习里面,它们可以是异构的,特征不一样,分布也不一样。从机器学习的角度来说,更加复杂。

 

同时,隐私保护是第一性的要求。过去,分布式AI和联邦数据库都是在一个数据的功能下,把数据分布在不同的数据库,目的是并行计算、提高效率。但是现在数据本身属于不同的属主,所以需要做加密情况下保护隐私的计算。

可能还有听众想问,假如在多个参与者中,有一个参与者是坏人怎么办?他在努力猜你的数据,甚至在做数据的“下毒”,比如故意标注一些错误的信息,就有可能把最终的模型变成对自己有利的方向,这也是有可能的。

如果原始数据是0,在OCR的场景下,另一方可以不断地接受对方的梯度猜出对方的数据。如果百分之百地采用同态加密,用联邦学习的方法,这种情况就不会发生。

联邦学习的特点是引入了生态的维持机制,也就是经济学机制。如果要让联盟能够持续下去,每个参与者都要感觉到作用和收益是成正比的,这就要引入经济学或者博弈论的机制来保证持续的平衡点。

总结一下,其中有很多工作要做,包括安全合规,这是跟法律层面、跟政府层面合作;有防御攻击,还有算法效率,技术应用、还有激励机制,要引入很多经济学家的工作。

举个例子,因为联邦学习是一个大的框架,所以有各种各样落地的场景。比如推荐场景,大家用抖音、用头条、用电商,这个时候都离不开个性化的推荐,但是推荐是数据越多越好。

如果数据来自不同方,过去是把数据买到本地来进行推荐模型的建立。可以用联邦学习来解决这个问题,这个做法是“联邦推荐”。最近我们把联邦推荐的算法应用在广告推荐的场景上,用各方的数据,最后广告推荐的场景可以个性化,但是数据可以不出本地。

联邦学习如何为金融发挥作用?

应用在信贷和征信系统,我们希望利用大数据建立360度的用户和企业画像,参加建立更好的征信。但是联邦学习出现以前都没有很好的技术,大家都不参与到这个生态里面,担心自己的数据被偷走。用了联邦学习以后就可以做这个尝试。

比如这个尝试是一家银行和票据公司的合作,数据都不出本地,银行所提供的是这个用户贷款的关键数据,合作企业提供的是企业的交易数据,这种交易数据为企业的活跃度提供了很多的信息,这两个数据进行联邦,可以让坏账率大幅度降低。

应用在计算机视觉,每个库房都有很多摄像头监控本地的库存,可以用不同视觉公司的监控数据进行供应链联邦。

更多跨领域的应用,比如监管和银行、互联网和电商、互联网和医院,都可以进行联邦。

建立这样一个生态,离不开行业标准。我们推进建立的IEEE国际标准这个月也会出台,国家层面也有标准。我们也推出了开源软件FATE。

我用微众银行的典型案例进行总结,刚才说的联邦技术贯穿了所有前台和后台。比如智能营销,引入联邦学习以后,可以把不同的数据源结合起来,让营销提高点击率。

特别受关注的是点击之后用户有没有转化、有没有变成你的用户,这个过程需要更多的数据支持,这些数据往往来源于合作者,利用联邦学习的效果可以大幅度提高20%以上。

反欺诈方面,可以在人脸识别、语音识别方面都可以大幅度提高效率。

风控方面,也是利用大数据把金融公司和非金融公司联成生态,大家在这个生态里面进行数据价值的交易。

还可以利用另类数据,比如把卫星数据、电信数据、非传统财报数据联合起来,可以实时为投资者服务。

如何唤醒沉睡的、有价值的用户?也可以用联邦学习识别这个客户有没有重新跟你合作的意愿。我们的经验是在当前这个经济形势下,是非常好的金融场景。

7×24小时的机器人服务,微众现在有98%以上是机器人在做后台服务,包括对话系统、客户服务、服务当中的监管、质量检测、智能监控、反洗钱,把细碎的小数据联系起来,变成可用数据。

以上就是我们的经验和总结,谢谢大家。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /nSLAe7gukKsltzAT.html#comments Wed, 12 Aug 2020 20:02:00 +0800
百度「联邦学习」战略全布局丨万字长文 //www.drvow.com/category/DataSecurity /cRavGZHcOm1d0nG1.html 对百度来说,联邦学习+金融会产生怎样的火花?

雷锋网AI金融评论推出的《BATJ高管公开课》第四期,就邀请到了百度智能云智慧金融事业部算法负责人谢国斌做客线上讲堂,揭秘百度智能云在金融领域的安全计算布局和技术思考。

此次课程,他将分享基于联邦学习技术的百度金融安全计算平台(度信)建设与实际应用,讲述如何借力安全技术架构、脱敏方法和合规制度设计,在“用户充分授权、数据来源合法合规”前提下,打破数据孤岛,实现多方数据加密融合建模,助力金融企业业务的开展。

本文整理:佳慧,以下为谢国斌演讲全文内容:

百度智能云的数据孤岛破解之道

我们在跟很多的金融客户进行沟通的时候,他们普遍面临的痛点,就是数据孤岛和隐私保护的问题。

目前的现状是,一方面要保护客户的隐私,另外一方面,数据孤岛在不同的程度上存在着,去年央行发布的金融科技三年发展规划里,也强调了要“消除信息的壁垒;数据融合。” 

今年4月,国务院也在《关于构建更加完善的要素市场化配置体制机制的意见》里,强调了数据的共享、数据资源的整合和安全保护。

所以,“数据孤岛”和“隐私保护”两者的困境,在业内一直是个难题。 

行业里做这块技术的公司,一般有如下路径在积极探索:

其中一种就是联邦学习;还有与之接近的,就是在做参数交换、梯度交换的时候,会用到的多方安全计算。另一种以硬件加密为主,可信计算(TEE),在内存里做安全加密。以及基于云安全,做安全隔离域的方法。

基于刚才说到的痛点,百度推出了度信金融安全计算平台,做数据融合,前提是强调用户要充分授权,数据来源要合法、合规。也提出了联合建模产品,拒绝数据孤岛的存在,产品对上面几种路径都是支持的。

今天的要点,主要是分享在联邦学习和多方安全计算技术路径上,我们所做的尝试和产品的研发。

我们的金融安全计算平台有以下特点:


平台主要服务于金融行业to B客户,会考虑行业里特别关注的一些场景,比如营销、风控、投研、反欺诈。我们基于金融的建模,有一些专用的功能点增强。从安全特性上,无论硬件软件,有多种的方式进行技术加固。

金融云专区上,我们通过了国家的四级等级保护;数据流通方面,我们今年通过了信通院的相关技术测评。

从计算建模层面看,我们是自主操作,甲方乙方各自操作,全程免编码,流程很简单,性能比同类的算法也要快。

私有云、公有云和私有化方面,我们有多种方式部署,产品目前也能提供工业级的使用体验,包括严格的工程封装、项目的验证实测,还有百度沉淀的金融行业案例、提供金融行业的场景的解决方案。

度信金融安全计算平台的技术方案

我们这个平台建设,刚才提到用三大类技术方案,统一前端入口和统一后台架构。

后台的架构,从下往上看,分为执行层、应用层、操作层、场景层。

从执行层看,中间是基于多方计算的联邦学习引擎,引擎最下面是基于加密的密码学算法和一些常用的不经意传输、同态加密、密钥分享等。

往上是基于密码学算法的多方安全计算,双方或多方的加密数据的协调和交换,隐私的PSI对齐、ID化、联邦分析和联邦学习。

再往上是应用层一些基于模型的算法的应用,这个是标准的机器学习建模流程。

操作层有可视化的操作平台和4A安全赋能金融行业,打造营销风控端对端的场景化建模功能。

我们的平台架构,需要满足三个不同的客户需求:

定制化方案要满足客户不同的安全等级要求;有客户对建模要求较高,那对算子、算法、模型多样性、交互和应用性方面要求就高一些,我们也会提供类似的解决方案。还有对不同的资源配置,构建私有云、公有云和专有云支撑,支持不同的部署方案。

这个平台的操作很简单,就是三个步骤。

先是合作的AB双方,完成本地数据的上传。原则上都是上传到自己的IDC机房里,数据不出域。

第二步细分为几个小步骤:

1.数据的融合,会通过隐私保护的求交技术PSI,达到双方的数据的可用不可见。

强调一下,融合不会泄露双方的数据隐私,比如说甲方有一亿的客户,B方有5000万的客户,双方去求交集,求出来只有500万客户,那么我们只知道这500万的交集,剩下的客户群双方都是不知道的。

即使求交了这500万的客户,我们也只有某一个主要的使用方,比如甲方银行在使用的时候,才知道这500万相互求交的客户号码是什么。

2.求交的这批客户,我们会进行简单的特征工程,一些算法模型训练,包括像机器学习的逻辑回归、GBDT等,也按照这个数据拆分,做完模型训练、输出模型报告以后,进行模式部署、模型推理和预测发布。

第一步上传样本比较简单,把数据上传以后,摁一个按键,就会看到这一横行里数据的上传成功,然后AB双方在这个地方点鼠标发布,数据才传到本地的服务器上面。

第二步模型训练,会自动包含刚才说的样本对齐,包括可选的特征工程,还有算法参数、算法选择等。

在模型训练过程中,等它出来一个结果,就会有一些像我这里截屏的模型,配置基本信息,比如双方对齐了多少样本,有哪一些特征?这里只能看到特征名称。我们算法所涉及的每一个主要参数是什么样的。这里以逻辑式回归为例,生成模型评估报告,像ROC、KS值等等,就完成整个模型训练。

第三步就是模型预测,需要在页面新建预测任务名称,包括描述,还有我们选择哪个预测的模型。生成的模型在这里做选择,再选择要预测的数据集,点蓝色按钮完成整个模型预测过程。一定时间后,就会看到右下角预测成功的显示,整个模型的离线预测就完成了,也可以用新建预测服务以API的方式供外调用。

我们平台的设计理念,是全程免编码,通过鼠标的拖拽来完成的。

度信平台在银行业、保险业的应用

银行信贷产品的互联网营销

这家银行开展信贷业务时,需要通过互联网去线上获客,但它并没有这种线上资源或流量去投放,也没有相关风险管理经验,于是它就跟某家互联网公司进行渠道上的联合建模,实现精准获客和控制风险。

首先是银行把他的数据和互联网合作方,把数据在自己的机房里边准备好,然后各自联邦学习时,上传梯度参数。

在互联网渠道这一端,主要是上传数据,建模发生在银行这端自行操作,就完成了整个建模过程,达到了数据模型建设,完成后确定合适人群。

第三步,精准广告投放,包括精准获客,这部分我们项目的客户日均调用量是50万笔。整体贷后表现非常好,降低了风险,也节约了这家银行的成本。 

线上风控+联邦学习

因为银行没有过往的一些互联网行为信息,也需要为此通过互联网渠道来合作、来进行联合建模。联邦学习最后的效果就是,让申请率提升了,通过率又稳定在一定的范围内,不良率低于银行业同业平均水平。

这个案例,我们推送的贷款客户金额是超过千万;通过率控制在稳定范围;该案例的不良贷款率是0.38 ,比去年银行业1.81的不良率低了不少。 

不同险种交叉营销

这个案例是一家车险公司的业务,在客户里筛选健康险的意向用户,进行精准点对点促销。建模流程与上个案例类似,由保险公司提供的高响应人群样本和互联网公司的数据进行融合训练,最后结果运用于全量的车险客户群。

效果上,这个模型的AUC值达到了0.76,减少了对客户的打扰,也降低了营销的成本。 

联邦学习落地金融的关键技术点

联邦学习本质上是软件加密技术,数据不出域、不出本企业,主要是通过梯度参数出域。从本质上来说是去中心化的方案。横向联邦由谷歌在2016年的时候研发出来,即数据的水平切分,主要用于金融同业间的数据融合。

横向联邦学习的计算步骤主要有四:双方发送加密的梯度,安全的聚合,发送聚合的加密梯度参数,再解密梯度更新模型。

纵向联邦学习基于数据的垂直细分,主要用于金融业和非金融行业,特别是像一家银行和一家互联网公司的数据融合。两家公司的客户群很多时候是重叠的,特征互补。

首先有分发公钥,加密交换中间的结果,再进行加密梯度和损失的计算,然后更新模型。

在和金融企业沟通的时候,我们发现他们关注的点有这些:

整个联邦学习里,金融企业运用最多的是纵向联邦学习,金融机构更想看到的是和他非同业之间的数据融合。

银行在和第三方机构合作时,非常强调这些数据进来以后,对指标的一些增量贡献,在意的是在现有基础上的提升。如果在现有基础上,引入的数据源没有很大幅度的提升、效果不明显,对金融机构的吸引力就会降低。

同时金融机构也强调数据源的差异化,如果数据来源都很类似,那对指标的贡献、对模型效果,提升度不是很大。 

联邦学习是整个框架里的主要技术。

另外,多方安全计算所涉及的加密技术,其主要原理如图左所示,四个参与方在针对任何一方都没有可信的情况下,安全地进行多方协同计算。

在一个分布式的网络中,多个的参与实体各自持有秘密的输入,完成对某函数的计算;但是要求每一个参与实体,除了计算的最终结果以外,其他的中间过程,包括自己其他客户的原始数据,任何的输入数据都是不可以看到、都是不可以获得的,这保证了参与各方的数据的安全性。

在安全计算过程中,所用到的一些密码学或加密技术,概括起来有这么七种。

  • 混淆电路,来自于物理学电路原理:一堆人各自拥有隐私数据,想把数据合起来进行计算,但又不想把数据交换给别人,典型的案例就是百万富翁问题。

  • 不经意传输,服务的某一个接收方,以不经意的方式得到服务的发送方输入的一些信息、信号,这样就可以保护接受者的隐私不被发送者所知道。

  • 秘密的比较协议,计算的双方各输入一个数值,但是他们又希望在不向对方泄露自己的数据的前提下,比较出这两个数的大小。

  • 同态加密,用这种方法先计算,后解密,也等价于先解密后计算。同态加密里也有加法同态、乘法同态,包括全同态、偏同态、半同态等,它在联邦学习中应用也较多。

  • 秘密分享,将秘密分割存储,多个参与者要相互协作才能恢复秘密的消息,如果有一方没有参与,是没有办法把这个秘密完全恢复出来的。

  • 零知识证明,证明者能够在不向验证者提供任何有用的信息情况下,使验证者相信某个论断是正确的。

  • 差分隐私,这在业界应用也比较多。

百度在多方安全计算方面,有自己的MPC平台架构。我们的平台架构分为这么六层,从基础到应用,有运行环境基于DOCKER的,还有基于云和SERVER的。

在基础的运行环境往上,有刚才说到的六七种加密算法。再往上是整个系统包括TLS、4A这一块的安全。再往上是系统平台层,有用户角色管理,包括数据和分布式调度、监控等。再往上看是数据的接入,再到数据的应用。

下面我会重点介绍三类算法,都是百度自研的。

第一种是逻辑回归,逻辑回归是常用的二分类的分类器,在这种分类器上面我们加了一个基于PrivC的加密算法的逻辑回归,这种算法是基于MPC的安全学习。

我们在19年的安全顶会上面发表了关于这个算法的文章,特点是训练速度和在公开的服务器上的明文相比,速度大概会是在明文算法的40倍以内,也就是明文算法假如要用时1分钟,那么我们要用时40分钟。

这里有一个案例,就是我们基于深度MNIST公开数据集,6万行784位的运算,我们用时25秒,时间还是比较快的。

在下面的截图,我们看到一些Table2,在一些加减还有一些常规的比较上面,基于我们自研的PrivC的算法和公开的其他的一些加密算法,像ABY、EMP、SPDZ等等,我们的运算速度都比他们快,标出的黑色数值是越小越好。

我们的准确率和明文算法比,会达到99%左右,比明文算法低一点点,一般的梯度,有时候建模如果控制得不太好,都会有一些模型的损耗,而我们的损耗是比较少的。

第二种算法,就是基于梯度提升的算法,有GBDT、XGBoost,再快一点的有LightGBM,我们这种算法叫SecureGBM,它是在LightGBM级别的基础上改造而成的。

基于 LightGBM基础上改造而成的这种算法,我们也是发表在19年的IEEE国际大数据会议上,大家看到左下角有一个截图,红色的框是百度自研的叫SecureGBM,蓝色的框,LightGBM-(A,B)就是明文算法,我们算法最后的结果和同类的最好的明文算法去比,在没有用任何加密的和普通的建模相同的条件下,AUC值的差距大概是在3%以内。

我们也比较了其他的一些明文算法,在这个图里边是-A或者-B,它是用了一些加密的联邦的一些算法去比AUC值,我们的算法都是比其它的算法会高一些,但我们会比明文的算法大概低三个AUC值,在3%以内。

第二个是它的运算速度,从这个截图看到,对比了16,000个样本,我们的算法和明文算法去比的话,我们的速度大概是明文算法的6倍,也就是明文算法如果用一分钟的话,我们会用六分钟,这个已经是非常好的效果了。

这个地方我们也提到,我们现在用的这个Paper里边是16,000个样本,如果样本增加到10万个,或者再往上增加,我们这个算法的运算效率会更高。

那么我们SecureGBM和明文算法的LightGBM,双方数据在一起,比较了在训练集上的AUC值和F1值,大家会看到有一条红线和一条蓝线,在截图里面红线和蓝线绝大多数时候是靠在一起的,走势是相同的,非常的接近。

说明我们的这个算法和明文的LightGBM的算法,在AUC值、在F1、在训练集上和测试集上,达到了非常类似的一个效果。

第三种算法基于深度学习,PaddleFL,是在我们百度自研的一个开源的深度学习框架飞桨的基础上,研发出来的开源的联邦学习框架。

下面是开源框架的github的网址,通过PaddleFL,使用人员可以很轻松的去复制和比较不同的联邦学习算法,也可以在分布式的大规模集群里面去使用。

这种PaddleFL主要用在深度学习算法里边,用在计算机视觉、自然语言处理和推荐算法的一些领域,也提供一些传统的机器学习的训练策略。

比如说像多任务学习,还有一些迁移学习、主动学习等等,我们底层也提供基于分布式的训练和Kubernetes的训练任务的弹性的调度能力,可以进行全站开源软件的侵入和部署,下面是基于我们的飞桨的一个的架构图。

接下来是编程模型、参数服务器、到端侧训练和弹性调度,再往上是我们联邦学习的训练策略及应用。

联邦学习策略这块我们也有纵向的联邦学习,刚才提到的PrivC的逻辑回归,横向的联邦学习,还包括DPSGD基于差分隐私的随机梯度等等。

我们也有常态的一些机器学习,像迁移学习,多任务学习,主动学习等基于联邦学习的任务,还有基于深度学习的自然语言处理、视觉、推荐这一块的学习任务,都是在PaddleFL的基础上来做深度联邦学习的建模。

PaddleFL的架构设计,图的左边叫编译Compile Time,是首先通过联邦策略,去设计一些算法策略,然后在中间设计训练策略,再用分布式的配置,合成以后,传到中间任务的调度上面。任务调度再传到参数的任务和训练的任务上面生成了job以后,再传到这边运行。

运行这一块有参数的服务器和worker,再下面是调度器,整个就会把服务提起来,然后进行分布式的训练,这是PaddleFL的架构设计。

同理,我们也有基于MPC的联邦学习,分成三部分,一是图右部分,基于数据的准备,首先有私有数据的对齐和数据加密及分发。

二是训练和推理过程,和Paddle的运行模式一样。首先要定义协议,在策略训练和推理完成后,就会到这个图的最右边进行结果的重构。

这一块就会把模型的结果或者预测结果,由加密方以加密的形式输出,结果方可以收集加密的结果,在PFM工具中进行解密,再将明文的结果传递给用户,就完成了整个MPC的联邦学习过程。

安全保证是金融企业最高优关注点

我们先看看现有的模式,现有的模式只有几个,在没有用到联邦学习的时候,状态是自己的IDC机房的网络和外界是隔离的,没有联通互联网,数据不进不出,因为只用到自己的核心系统的数据,数据是物理隔离的。

但是这个模式最大的问题,就是在它的建模过程中,会存在着一些天花板,比如刚才提到的KS值,如果做到0.35了,就再也不能再往上做了。

模型效果更多的取决于特征工程,而他又没有用过外面的无论是互联网,还有政府,一些运营商的一些领域的数据,那么一些风控也好,营销的行为它是拿不到的,模型的上限是由多维度、多样性来决定的,所以达不到很好的建模效果。

于是就衍生出来第二种模式,叫标准分的调用模式,标准分的第二个模式,它也是有自有机房,但是它的网络变成不是隔离的了,而是单通道的,就是它的数据只进不出。

在网络这块,因为开了一个单向的通道,有可能存在一些被黑客攻击的风险,这个标准分的调用也有一些弊端。

大家知道,进来的只是一些标准分,也就是说,外面的数据过来的可能就是一个变量或者两个变量,它是一个高维特征压缩以后的、降维以后的一些特征的输入,每次输入只有那么两三个特征。

这种高维特征压缩降到两三个维度以后,有非常多的特征信息是损失了的,所以它提升的建模效果在信贷场景可能只提升那么一两个点,比如像KS值是0.35,提升到0.37、0.38就到了天花板了。

我们今天谈到联邦学习的模式,它的数据通道是双通道的,双方要进行梯度或模型参数的交换。

首先,双方数据对上面的一个中间节点要进行上传,但是它的原始数据没有出域,它的参数数据或者模型的参数或者梯度参数,是通过加密的方式来出域的。

从这个角度来看,因为它的网络通道打开了,存在潜在的被黑客去攻击的风险。梯度参数的话,从现在的业内的研究来看,也存在一些被反解,或者一些隐私被攻击的方法。

还有一个,它有一个强烈假设,就是需要参与的双方或者各方,需要满足诚实、半诚实模型的原则,如果有一方有严重的欺诈,去改变了模型的一些参数,或者是一些游戏规则,模型的安全也会受到一些挑战。

这是联邦学习目前和上面的现有模式、标准的模式相比,所面临的一些优点和缺点。

那么这里会就提到模型提效,模型提效是一把双刃剑。现有模式下,在右边的这样一个方程式,目标标签Y是来自于金融企业本身,它的X特征也是来自于这家企业,企业只用自有的数据建模,没有外部数据带来模型效果提升,就会面临天花板。

我们再看联邦学习这种方式,刚才提到,通过梯度参数的交换来建立模型,那么基本上双方数据没有降维,外部提升的最大好处就是,带来的模型效果提升非常大,与明文相比的话,它的精度损失基本上还是比较小的。

但是,在和很多金融企业沟通后,知道它有非常大的短板,企业有各种各样的顾虑。

1.建模的过程中,即使想用联邦学习来进行建模,金融企业很多时候并不愿意把自己的特征放进来,但是可能只会将自己客户的ID和目标变量Y放进来,因为金融企业会觉得用联邦学习来建模,有可能存在一些数据安全的问题。

2.他们也希望拿到一些数据以后,再做二次建模,以满足金融监管的要求,因为在金融监管这一块,特别是在信贷风控的场景,希望金融机构要自控这个模型本身,而不能把这个模型交给外部的机构去控制。

安全保证和数据提效前提下的得与舍

在数据的安全保证和数据提效的前提下,联邦学习还要面对什么样的得和舍呢?

第一个,从运算速度来看,现有的银行在自己的机房里面进行明文计算的数据建模,它的特点是运算速度很快,可以用像spark、Tensorflow、PaddlePaddle等分布式技术去做这种很成熟的运算。

但是到联邦学习就不一样了,刚才提到,它的训练速度至少会比明文计算,少则慢一个数量级,慢10倍几十倍,也有慢两个数量级几百倍的这种可能性。

第二块就是它现有的分布式技术还不太成熟,这是他在速度这一块可能需要去考量的。

第二个,从算法种类来说,明文算法它是基于Python的开源社区,算法生态非常多,上千种上万种,顶级论文的开源代码,基本上就是按天、按周来迭代,更新的频次非常快。

但是在联邦学习的算法过程中,要考虑到数据参数的加密,所以它的研发非常困难,我们的算法种类相对而言都是比较少的。业界现在能看到的也就是那么几种或者几十种,并且也不可能把最新的算法研发出来用在联邦学习这个领域。

第三块,就是产品的应用性,因为现在基于明文数据的这种算法,AI开发平台有非常多,支持多种框架,还有它和数据的中台的融合,非常好对接。

那么对纯代码方式来讲,金融行业去使用时,因为金融行业很多用户也不是经常做coding,所以他的学习曲线比较难、比较高。

刚才也提到如果用代码这种方式,它跟这个操作系统有些时候需要linux shell脚本方式进行交互,那么它的安全性可能会存在一些缺陷。百度的度信平台在这一块用纯界面的方式,也面临着一些开发的周期和实施的难度。这个是联邦学习与建模要考虑的问题。

所以我们在考虑安全,在考虑数据对建模效果业务绩效的前提下,我们在运算速度上,在算法的种类的选择上,在产品的应用上,都做了一些权衡和一些损失,但有些时候这种损失和这种权衡是值得的。

下面一点,就是百度金融专有云,如果是联邦学习在我们的金融云、专有云上面进行部署的话,我们还额外提供七重的数据安全保障。

这七重的数据安全保障在这个图里边用1234567都标注出来了。一块是我们提供异地的灾备,我们在武汉、北京和上海有异地的百度金融云专区。

在数据的交换过程中,我们会提供一些芯片级的算法级的加密,包括在网络的通路上,也提供一些加密的传输,让加密的数据被截取以后都是不可用、不可解的。我们参与方的数据在云上的链路也好,在云上的一些硬件的里面,双方都是互不可见的。

安全的数据脱敏方法和合规制度保障

在完成了整个建模的过程以后,比如说金融企业的数据要有用户要查处,最后模型在使用的时候,有一个数据的健全,如果没有授权的话,是不可以去使用产出模型的。

除了联邦学习以外,我们在整个云上、在物理链路上、存储量上、硬件上做了各种各样的加密去保证安全,而不只是运用了联邦学习技术本身,或者只是开发一个平台。

在和金融企业的沟通中,我们发现,即便双方要进行联邦数据的融合建模,也可以采取刚才说到的,双方先有两个数据宽表,然后再进行融合的联邦学习。

在生成这两个双方的数据宽表的同时,还可以采取一些更加安全的数据脱敏方法,用的比较多的就是K-匿名化,这个是保护客户数据隐私的一种重要方法。

我们希望双方在生成数据宽表的时候,甲方和乙方都能够采用类似于匿名化的技术,让双方的原始特征数据脱敏得比较彻底,不能够被反推。虽然联邦学习本身也非常安全,在这个基础上,我们能够用更多的数据脱敏的方法。

右边这一种也是类似的,我们会用差分隐私的一个方法,在数据集中里面产生一定的噪声,这种随机造成它可以通过一些概率分布前置来产生,这样就在设计过程中很难去推断出客户的一些隐私。

和金融机构合作时,在数据的安全管控上,我们也会提供一整套的安全的合规的保障制度。

首先是从公司的治理层面,数据和流程层面及安全的能力层面,我们从不同的角度去看这家金融企业和它合作的另外一个互联网企业,只要用到度信平台,我们会提供一整套的关于安全保障机制的建议。

还有一块就是数据的生命周期安全,我们考虑到六个环节,数据的收集和产生要合规,我们有数据的分类分级和安全日志。那么在传输和传递过程中,有加密和传输的安全的监控。

第三块就是存储,在存储的安全和数据的加密备份这一块,也要考虑安全。

第四就是它整个数据的加工的环境,使用方和用户授权等等,也要保证安全。

第五个环节涉及整个的流通与共享,包括对内流通和对外流通,我们要考虑相关的安全性。

当我们使用完联邦学习以后,也要有相应的动作,不要让数据留存在双方的服务器里边。整个的安全制度合规保障和数据的生命周期,都是我们在实践中慢慢总结出来的。

对于整个联邦学习,额外增加了一些针对金融行业更加安全的一些举措和方法论。

我们也通过度信在这样一个平台的实施过程中,慢慢把这种方法论传递给金融机构,传递给合作方,让我们整个在运用联邦学习的过程中,更加保证整个数据的安全,让数据可用不可见。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /cRavGZHcOm1d0nG1.html#comments Wed, 08 Jul 2020 08:02:00 +0800
微众银行区块链首席架构师张开翔:区块链上隐私保护的挑战和应对 //www.drvow.com/category/DataSecurity /CLo471No0q0w8HN1.html 近日,微众银行区块链首席架构师、FISCO BCOS开源区块链平台首席架构师张开翔做客HKSAIR《AI金融》系列线上讲座,以“区块链上隐私保护的挑战和应对”为主题,探讨区块链如何为数据隐私和信息开放构建一座天平。

以下为张开翔演讲全文,雷锋网《AI金融评论》做了不改变原意的整理:

我是微众银行的张开翔,我们团队从2015年开始研究区块链。

在讲区块链和隐私保护之前,先简单过一下区块链的概念和分类。

首先,真正的区块链必须是在分布式网络上的。区块是有序号、有高度,一个区块接一个区块地互相依赖生成,这样可以做到数据的严格校验,不丢、不错、不乱。再用密码学来校验数据的稳定性、可靠性、完整性。

下面两层加起来,更像一个分布式数据库或分布式网络。行业里有个玩笑,说它是最慢的分布式数据库。像比特币的TPS就是7(笔/秒),以太坊大概是10+。我们联盟链其实还是快很多,单链TPS目前是两万左右。这里就涉及到性能优化的课题了。

分布式这么慢,它还有什么价值?它的价值就在于多方协作

区块链的灵魂与核心是什么?共识。没有多方智能合约与共识算法来达成透明、高效、可信的合作,那它就只是个分布式数据库。

那多方合作是为了什么?肯定是为了资产交易,数据分享。计算和数据共享基于智能合约透明的规则,大家共同执行,这就是区块链。

区块链的基本特性是什么?介绍隐私保护之前,我们先来了解区块链怎么组织这些数据和规则。

首先,在每个节点里,都有相同的区块的数据结构。简单来说,就是每个block里都包含一批交易。每个交易可能体现的是一次资产转移,比如a给b转了100块钱。

这个交易必须是事务性的,交易执行结果在所有节点上一致,怎么做到这一点?即通过共识和数据同步,意味着所有数据都会存到链上所有节点。

如果这个链接入了10个节点,数据存了10份一模一样的;如果是1万个节点,那数据存了1万份,它也是一模一样的,一个字节不错、不丢,说明所有人都可以看到这个数据,也能验证数据。

(如果)有少量的人篡改数据,其他人可以通过共识和验证来拒绝修改,并且在发现修改之后惩戒篡改者。

所以,区块链可以达成这样几个效果:

第一,数据难以篡改。要改,则必须算力达到50%以上,或者与链上所有或大部分共识记账节点串谋,还是可以做到篡改,但这非常难,几乎不可能实现。

第二,规则透明。因为智能合约在所有列的节点上是同样的虚拟机和代码,对同样的输入运行结果肯定是一样的,是可验证的。

第三,可追溯。既然大家都有所有数据,而且数据是含括了block 0到block最近高度,这就意味着可以追溯。

因为以上几点,从而达成了区块链最重要的特点——信任。但是,任何事情都具有两面性。

说到区块链上的隐私挑战,首先定义一下隐私是什么?你的个人数据和信息是隐私:除了你有多少资产、银行存款、不动产等,还包括你跟谁交易,也就是银行流水。

我之前递交出国签证申请,需要附上最近半年银行流水和交税记录。当时我很诧异,也很难接受,我觉得这些交易关系是我的隐私数据。

从流水中的交易信息,可以分析出交易时间、地点、交易对象、常用的交易类型是零售还是转账,这些都是你的行为模式。

现在所谓的大数据营销,更多的就是基于你的身份、拥有资产、交易关系、交易频率、行为模式等信息,来对你进行用户画像,分析出你的习惯喜好。

还有一种是大容量数据文件,在商业场景较为常见。比如刷脸会留下视频,签合同会留下PDF文件,大量用户行为产生一堆大数据集,这其实都是隐私的、个人的、商业的数据。

所以,隐私是立体化的,它包含很多维度,各种场景、时间、行为都会产生隐私数据。

区块链上隐私保护的实现

那区块链上的隐私是怎么表达的呢?

以前,大家都说比特币和以太坊本来就是隐私的,但它隐私基础的重点是匿名。在比特币、以太坊上转账,用的是一个私钥和私钥生成的地址,并不包含用户联系电话、真实姓名、邮箱等个人信息,大家看到的就是一串密码串。

比特币网络的创建者中本聪,到现在也没有人知道他是谁。听起来这是一个很成功的隐私保护方案。但是,如果你不注意私钥保管,或者自己把地址公布到某个论坛上,让别人去给你转账,那就意味着这个地址在论坛上跟你的账号绑定了。

如果你参与了某种交易所,登陆交易所需要个人手机号注册、上传身份证,这时你的地址就跟身份绑定;又或者是通过反洗钱、反恐融资策略——总之可以利用一些方法,将账户跟你的个人身份联系上。

从技术手段来看,IP映射是指无论你在哪台计算机,发出哪个通信包,只要能被抓包下来,就可以分析包里的很多信息,映射到你这台电脑,获取你的账号、地址等。社工分析也可以基于你论坛上的行为、个人朋友关系、动账的交易关系进行跟踪。如上图所示,只要转账,就有关系网,这都是公开可追踪的。

区块链的特征是透明、共享、可追溯、广泛参与:

  • 透明就意味着拓展了信息暴露的维度;

  • 共享就意味着增加了数据存储的位置,所有节点都存储数据;

  • 可追溯就意味着你的隐私数据存储可能是永久的,并不是存储一段时间后就删掉丢弃,延长了隐私存储时间,就很难被遗忘;

  • 广泛参与,是说区块链作为分布式网络,一定是有各方共识的,这时,参与的网络里就可能有短板,而公开的网络环境更容易掺入非信任角色,联盟链在这一点上相对会好些。

所以,区块链其实带来了更大的隐私挑战。有种说法是区块链大量使用了密码学,所以它是可信可验证的,但其实这里的因果关系要调换一下——是因为区块链本身追求公开透明,为了在公开透明的基础上达成信任和验证,才要引入更多密码学算法。

在工作中,我们会遇到很多灵魂拷问:

作为一个金融机构,每天的交易信息都是透明的吗?

怎么做到上链的数据可验证,但又不被看到,更不会被窃取?

数据上链后,能不能删掉?

加密数据会不会被暴力破解?

现在都用椭圆曲线、RSA算法、对称非对称加密,用很长的密钥来保护数据。从数学理论上来说这些都可确保数据安全,但量子计算出来之后该怎么办?

……

个人认为,量子计算技术成熟到应用可能还没这么快,目前来看,量子计算的形态可以交换密钥,但想要处理和破解大量数据还是比较难。

可是,对金融业来说,如果数据保留二、三十年,甚至永久保留,即使使用长密钥加密,链上数据也可能被破解。父亲的数据被破解,影响了儿子,影响几代人,(这种现象)理论上是存在的。

当然,密码学保护和攻击的两个阵营,是呈交叉螺旋上升式:你有矛,我就有盾,只是看矛和盾哪个硬,要用多少成本去保护数据。

隐私保护在实际场景中的应用

  • 金融典型场景一:风控

假设一个借贷服务,涉及多机构共同参与,这些机构联合为借贷人提供资质证明和资金,这就意味着这些机构要投票判断用户信用、决定贷款利率等。

但金融有风控独立的要求,就是a机构与b机构的规则应该是互相独立、各自运作的,如果只有一套规则且全部透明就有可能被人猜到。

这还涉及到用户隐私问题,比如用户在a机构发生的交易数据,不应该直接交给b机构,a机构和b机构都应该用自己的数据和数据来对用户进行判断。这些都是隐私保护。

征信和风控有相似之处,但其中的不同是征信要用大量的、多维度的有效数据,涉及到社保、银行、税务各机构的多方参与。怎么把不同维度、不同机构的数据连接在一起,整理出风控模型,这就自然而然联想到联邦学习。

  • 金融典型场景二:资产流转

下图左侧展示的场景类似二级市场:有发行、代理销售,代理机构a不希望代理机构b知道自己的代理情况,用户不希望别人知道自己买入卖出,这都是个人账务资产变化,属于隐私信息。

隐私保护策略,哪个更好?

现在确实有很多隐私保护的策略,像是零知识证明、安全多方计算、可信硬件环境、全同态密文计算等,还有相关规范标准,那是不是就能完整保护隐私了?我的观点是,每种隐私保护策略各有所长,各有所短,它的长短可能都体现在性能、功能、复杂度和中心化程度上

零知识证明和安全多方计算,就是隐私保护的核武器,非常有潜力。

但其也有局限,比如零知识证明重点在于证明一个事物的有效性,而不在于运算,但用户的账目、风控模型都涉及计算。

安全多方计算是可以用于联合计算,但现在它处在从两方向多方发展的阶段,多方安全解决起来比较困难,牵涉成本、计算量、复杂度。

我们都知道,手机有个安全区,把密钥保护在安全区可以降低安全风险——但一个大企业把成千上万的数据保护在安全区,就相当于完全依赖安全区。安全软硬件依旧会有漏洞,还是要及时升级,总的来看,依赖硬件体系的反应速度会比较慢。

同态非常有趣,两个密文相加得到一个密文,密文解密之后是这两个密文对应的明文相加的结果。它可以用于多种情况的账目计算,但只能计算,很难验证,也就是计算结果如果是错的,在密文情况下无法得知。

而且,现在同态一般是用于加法计算,乘法计算的速度比较慢。另外,同态的数据量如果是比较大,那么其数据膨胀和运算速度降低就会非常明显。

群/环签名,它很轻也有不错的性能,但主要面向身份,不面向数据。

规范和标准,依赖很多链外管理手段,比如惩罚、司法追责。我们要把这些手段全部综合起来,在性能、功能、复杂度和中心化中取平衡,在不同的场景下扬长去短,来达到成本和效果的最优。那就要求从多维度考虑隐私保护,它是个立体的场景化问题

身份、资产、交易,这是我们要保护的基本信息。

首先,这些信息是否可见?如果连数据都碰不到,那没办法利用这些数据做任何事情。

其次,能看到之后,我们能不能使用?如果看到的是一串密文,那无法使用,还可以运用混淆、脱敏的方式来保证这些信息不完整性。例如,有账户信息,但没有身份信息,这样就无法被利用。

比如,密码学有个密码信封,只有信封密钥的人才能打开。又或者是使用很多方式,比如一次一密的假名,来防止关联,这样就无法对用户进行画像,外人可以看到的只是孤立的数据,没有办法对用户做什么。

最后,就是你看到的数据能不能被控制。控制数据就是说,你们把我的账转给别人,改变我的属性,我就要做权限控制,做安全加密的安全策略和多方制衡。

正如前文所述,区块链有个特点:如果你改数据,别人不同意,共识算法不通过,我有拜占庭容错,这就是一种多方制衡

我们要达到几个效果:看不见数据,不知道数据,不能改,但它在区块链上依旧是可验证、可监管

这就是联盟链的特点——要可监管、合法合规,这些要求要覆盖链上整个生命周期,包括收集、传输、存储、使用、屏蔽、销毁。

生命周期的每个阶段都有不同的特点,环境还牵涉网络、存储、内存计算和云,要用不同的技术手段去应对。所以我们的整个版图还是很庞杂,图上的底层就是各种各样的隐私技术,并不是一两个算法、密码承诺或者简单的不经意传输就能够涵盖的。

从可见、可用、可控思维看区块链

  • 联盟链治理

联盟链跟公有链最大的区别在于,联盟链有准入机制。所有接入联盟链的人、机构、节点、身份都是可知的,接入前需向运营委员会申请。

委员会是多中心化的,并非单点。如果大家同意你加入这个链,给你分配了证书、公私钥,就可以接入这个链。方式是发起连接。如果这个人或节点在链上有恶意行为,委员会还可以把他踢掉。

  • 隔离

机构参与业务时,有可能和不同的人发生交易,作为机构,会希望这些人里没有交集,这样同业的倾轧、数据泄露等情况都不会发生。

我们研发的底层平台有一个群组架构,就是在区块链上拉出一个局部共识的独立账本。群组里信息互相隔离,群可以扩容,也就是你可以建立无数个群,覆盖无数业务,这样从性能、功能上来说都有极大好处。在不同的群、不同的链上的不同信息需要互相验证、打通,就走跨链的路径,这项技术安全上是可控的。

角色隔离,首先要定义清楚,不同的人做不同的事情。有个术语叫DO分离,就是开发和运营分离,开发不能做运营的事情,运营也不用去写代码。

扩展一下,就是建设、管理和使用是分离的,避免一个角色又当裁判又当运动员,以免他触达太多数据,可能会侵害隐私,这就是整个联盟链的角色分层理念。

刚才说到了节点、人、权限的隔离,再看数据隔离。我经常被问到一个问题:要传输一个文件,能不能上链共享,但同时上链后不让所有人都看到这个文件?这时,可以将文件加密再放上链。

还有一种文件不需要上链的方法,链上存储的是一些标识或URL,是一些哈希,它们相当于文件的指纹。通过链上链下结合:链上建立哈希指纹,链下传输文件,用户可以在链上得到指纹,去验证文件。

如果文件密级不高,可以用IFPS,但它是把文件分片,依旧可以串谋几个计算机把文件分片聚集再拼出文件。如果是密级较高,还是建议用自有存储的方式。

交易隔离,链下有些私有交易,是高频、小额、点对点的,可以放到链下,像闪电网络就是类似风格。这样操作一方面可以提高性能和响应速度,更重要的是解决交易关系的问题。区块链上的两个人通过点对点网络沟通,完全可以不经过服务器。所以点对点的过程是完全隐私的,只是最终产生了账目,总账里不包含这种点对点交易的隐私信息。

  • 分布式标识协议(DID协议)

这个协议是由DIF(全球分布式身份基金会)与W3C(万维网联盟)国际标准化组织共同推进,目标是形成开放网络,大家统一身份、互联互通,做到数据无缝共享和流转。这种模型可以连接人、物联网、数据,服务各种各样场景,包括金融、政务、医疗。

它是非常开放且通用的标准,参与其中的用户可以自行控制并拥有数据,这跟之前很多互联网模型不太一样。在互联网模型里,互联网巨头保存所有数据,我们说的在“云”上,(其实)都在别人机房里。用户只有一个登陆密码,没有管理和拥有数据的权限。

这是非常重要的一点:用户保存、控制自己的数据,这个数据是一种凭据,从权威机构,或是用户业务行为而来,它们不仅仅是数据,而是证明,是可信、可验证的证明。

怎么理解分布式DID协议?

首先,用户要做KYC,比如刷脸,叫KYC生成标识。全局唯一标识,标识的样子就是密码串。中间这条竖线左边所有东西都是用户自己持有和控制的,右边是你要交出去的,中间就起到防火墙作用。

这里有个隔离,谁找你要什么数据,必须表明访问策略,就像你的安卓手机安装APP时,询问你开启摄像头权限,也就是用户同意访问策略,才会给出一个表述或披露。这个披露可验证,但它是选择性的最小化披露。

这就是隐私保护非常重要的模式:你保存管理自己的数据,明示同意,经过批准、审核之后,挑选一些数据,把它生成一个密文证明,给到对方去认证。因为区块链连接了权威机构、用户、商家,所以在链上进行可信的验证,就是区块链和隐私保护的一个有机结合。

企业数据则涉及人、行为、业务的大量数据,如果要联合做业务,就会考虑采用联邦学习,在多家机构做到数据不出自己机构,还能够训练出一个有效模型。

这个模型就可以导入区块链上,链上的行为,风控、交易汇率、信用评级、定价等等,都可以采用联邦学习训练出的模型,非常有意义。

不同目标要采用不同的算法,比如收集大量的数据,要做差分隐私;为了防止画像而做假名化;数据脱敏再做同态加密,汇总到云上,这都是大批量的群体数据算法,适用于大数据挖掘以及联邦学习等。

再来看看身份隐秘,其适用在匿名支付、匿名投票、匿名竞拍场景。如果可以匿名,又可监管的话,用户就不用担心自己的投票行为会招致别人非议。

数据隐秘,资产里的数字、交易行为,都是数据。支付、投票、竞拍,这都是场景。其中可能用到包括同态加密,零知识证明、安全多方计算、TEE等技术。这一系列的技术怎么为业务所用?

前面提到这么多隐私保护策略、数据维度和算法,一个场景不太会每个技术都用到,所以我们把这套技术整合成开发包方案,覆盖从业务层、服务层、区块链到智能合约的整体架构,不同的客户端用不同的密钥,使用SDK和模板工具生成场景所需的隐私保护工程和策略。

值得一提的是,每个人的隐私偏好有所不同,但我们是以最严厉的隐私保护标准来做的,这样对整个生态的未来才是健康的。我们的技术也是开放的,包括区块链,绝大部分都是开源易用的,可以适配很多场景。

总结一下:隐私保护,机会和挑战并存。隐私保护是立体化策略,去设计一个通用的隐私保护策略其实很难,我们现在做的是针对大量场景做有效实现,也欢迎大家一起研究实践,一起达成技术、业务以及整个生态价值的突破。

即将启幕

CCF-GAIR 全球人工智能与机器人峰会———AI金融专场

历届 CCF-GAIR 已汇聚多位诺奖、图灵奖得主,28位海内外院士,21位世界A类顶会主席,103位Fellow,400多位知名企业家以及100余位VC创始人出席。

8月7日-9日,《AI金融评论》将在第五届CCF-GAIR中举办「AI金融专场」,目前统计学“诺贝尔”— COPSS总统奖得主,摩根大通执行董事,世界顶级学会主席,金融巨头首席科学家、首席风控官,已确认出席。

会议详情与合作,可联系专场负责人周蕾,微信:LorraineSummer

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /CLo471No0q0w8HN1.html#comments Tue, 30 Jun 2020 19:16:00 +0800
HKSAIR副理事长郑松岩:香港银行业如何筑起网络安全堡垒? //www.drvow.com/category/DataSecurity /5eI4LvvKPTpPVRSq.html 近日,香港人工智能与机器人学会(HKSAIR)副理事长郑松岩做客HKSAIR《AI金融》系列线上讲座,以“香港金融业网络安全和个人隐私数据保护”为主题进行分享。

以下为郑松岩演讲全文,雷锋网做了不改变原意的整理:

大家好,我是郑松岩,我今天跟大家分享一下香港金融业网络安全跟个人隐私数据保护的情况跟做法。

香港金融主要还是银行、证券、保险,但三个细分行业监管的严谨程度存在较大的差异。银行监管最严谨,所以我们讲的主要是银行相关的部分。

银行业“水深火热”的网络安全现状

2018-2019这两年出现很多资料被盗的案例,不过不是在金融行业,而是在其他行业。

2018年10月,国泰航空公司总共有900多万的客户资料被泄露。其实国泰内部早在2018年4月份就发现问题,只是延后公布。

新加坡医疗集团Sing Health则丢失了150万病人的资料,这与国泰事件发生时间很接近,但两者处理事件的方式大不相同。

Sing Health在出现问题的时候,政府监管马上跟进,几个月后公布调查报告并供公众查阅。

万豪旗下的喜来登酒店也曾经丢失超过3亿用户的个人资料。Facebook更是频频通过心理测试或者各种游戏,窃取用户个人资料。Facebook近年不断出现一些系统漏洞,很多用户的个人电话、邮箱、信用卡或身份证资料都暴露了。

这些案例看似与金融业务无关,但这些被泄露的客户资料有信用卡号码、身份证号码,都可能被盗用。将来用户在银行申请开户、贷款,这对客户本人就会产生危害。

2019年也出现了很多泄露事件,比如新加坡另外一间医疗机构HSA,发现很多客户资料被挂在黑网上售卖。同时,像Instagram等社交媒体,都有很多信息外泄情况。

还有第一资本也丢失了客户资料,它本身就是金融机构,丢失资料更容易导致客户信息被盗用,引起金融方面的损失。

再往前看,2016-2017这两年,是全球银行经历最多线上劫案的时候。线上劫案,也就是网络攻击。

Swift是跨国家或地区的一种汇款转账方式,该机构在各银行安装转账终端机器。孟加拉央行被黑客进入,通过Swift被盗取8100万美金。香港很多网上银行用户个人资料丢失后,被黑客冒用做股票交易进行现金套现。

台湾第一银行ATM服务器被攻破,导致很多不同地区的ATM某天自动吐钱。泰国也出现过ATM被盗,是在机构更新ATM程序时趁虚而入。

实际上,现在很多地下黑网都会给这种网络攻击明码标价,盗取的店面数量、账户总值都可以在网上看到。

  • 钓鱼工具典型案例之孟加拉央行

这种盗取很多资金攻击,是不是很复杂?这里以孟加拉银行为例做出解释。

黑客并不是直接攻击银行数据中心,因为数据中心的服务器比较复杂,而是利用钓鱼邮件,比如假装成求职简历,邮件发送到央行人事部门,部门人员点进去就中招。这样,接收文件的那台个人电脑就被黑客入侵了。

除了用户自身操作以外,很多系统管理人员也在这台电脑安装过软件或是日常维护,黑客也就顺势拿到系统管理人员的密码,就可以尝试通过网络控制其他服务器。再利用服务器,安装一个能够获取用户键盘输入信息的程序。

如果此时这台电脑是给用户用Swift做汇款操作的,那黑客就能获取Swift汇款的ID和信息,远程操控这台机器。

这样的操作,一直持续了39天,央行一直不知情,直到有一次黑客打错收款人姓名,交易被中断。银行内部做检查,发现这不是内部人员所为,才追踪发现这件事情。

这就是从终端电脑开始慢慢安装软件,潜伏,通过网络搜寻获取更高权限,层层递进,最终发动攻击。

  • 钓鱼工具典型案例之台湾第一银行

而入侵台湾第一银行的程序,实际上它是从伦敦的一个终端机上进入的,通过网络掌控到传真式服务器。

传真经常会和总部有资料往来,他们之间有连接。黑客通过传真式服务器、伦敦的服务器,再进入到台湾本部的服务器,一层层操作后掌控自动柜员机的服务器,黑客可以操作指定区域的ATM机器,给出取钱指令,直接得到现金。

我们的惯性思维会认为,网络攻击就是攻击服务器、数据中心,但这是从技术层面来讲。钓鱼软件则是一种从终端用户切入的攻击,低成本高效益,操作更容易,也不容易被追踪。

对用户来说,网上银行要输入ID,同时还有短信之类的双重认证。

黑客用钓鱼软件,程序很简单,比如给用户发链接,点进去之后显示的银行登陆界面需要输入ID、密码、验证码,用户更容易信以为真。但这个弹出的网上银行界面,其实是黑客电脑上的,不是真正网银界面。

用户在不知情的情况下,输入自己的ID、密码,被黑客获取,去真正网银上输入用户的账密,用户收到辅助验证的短信。一旦用户没有发现端疑,按照指示操作,黑客就能拿到短信完成双重认证,从而进行更多操作和交易。

金融业的网络安全治理之道

金融业的网络安全管制,不只是技术层面的。各业务部门和用户,全部都要有网络安全意识,无论是在哪个机构、哪个国家或地区都是如此。

另外,不同银行的管控能力都不同,网络安全的治理跟管理要并行,这一点要分清楚。

管理是日常的网络安全计划,采取一定措施监控和运行系统都是属于日常管理。但治理更重要,它处于更高层次,金融机构必须定出一种方向,去思考:

1、对网络安全的容忍度有多少?

2、网络安全在机构里,属于最高优先级吗?

这些问题的答案,直接与机构对网络安全的重视程度挂钩,包括投入的资源、人才跟资金,因为要建构很多不同的措施,包括检查机构网络安全的水准是否达到一个水平。

在座有不少朋友负责网络安全,或者从事科技行业,我想请问大家:当你的管理层或董事会问你,你觉得自家机构的网络安全与业界同行相比是什么水平?有多少差距?这个问题你会怎么来回答呢?

网络安全是一件由上到下、遍及全民的要事。香港金管局就明确规定,保障银行的网络安全是机构董事会成员的责任,由董事会负最终责任。管理层必须根据董事会定下的网络安全优先级,去保证所有的资源架构配套能够到位。

  • 管理层监督

管理层的下一级是科技或风险管理部门,甚至是一些前线。管理层要保证计划都能够执行到位,再具体到技术人员。

只有管理层乃至机构董事会了解到整体安全保障情况,把它列入日常议程,整个机构的网络安全资源跟能力才能持续下去。

网络安全永远没有“做到最好”这个说法,不是监管要求或者稽查就做一下,无人违纪就停止了,而是要持续执行下去。

管理层监督的对象,就是有关网络安全的部门、科技部门,包括用户。有关部门应该收集报告,定期向高层管理、董事会汇报安全情况。

现在很多培训,只面向科技人员,这不够。要把培训遍及到董事会跟高层管理,他们也充分了解当前网络安全整体趋势,才能引起足够重视。基层同事也要知道网络安全各方面保护,不断宣传,让所有的终端用户都有这种意识。

除了全民意识,在技术层面可以有很多的手段,比如在电脑上安装不同防护工具、加密工具或监控工具。实际上不同机构都会不断互相学习,然后引进技术手段,辐射到终端用户和高层管理的培训。

香港金融管理局(下称“金管局”)对科技的风险监管有不同的规范,以科技管制和技术措施为主。

持续性业务,又称TM-G2,是指业务整体都要持续有留存备份,不只是科技中心的备份,还有业务操作备份、演练规划。演练包括技术和业务层面,应急启动等,都有很多不同规范。电子银行因为变化得很快,所以有专门的管理规范和相关指引。

香港民众对个人隐私的保护意识很强,是好事,当然也没那么快接受新鲜事物。香港有专门的隐私条例,大概有6个原则:

  1. 个人资料的收集、目的及方式。社会上不同的机构,像银行、商店要收集客户资料,就必须讲清楚收集资料的目的跟使用方式。

  2. 个人资料的准确及保留期。讲清楚目的后,还有使用期限,多久之内必须要删除,资料不再留存。

  3. 个人资料的使用。在使用的过程中,要遵循告知用户使用的方式且只能用于此事,用户一旦发现不妥,可以投诉。

  4. 个人资料的保护。即是资料在处理中、传输中、存放中的保护。

  5. 资讯需在一般情况下可以提供。

  6. 查阅、修改个人资料的权利。

根据隐私条例规定,用户可以随时要求查询收集记录的资料,也有权要求修改和删除。

  • 网络安全管理指引四大重点

网络安保方面,金管局曾给出过银行指引,重点如下:

1、董事会和高级管理层的监督

银行网络安全的风险拥有人就是董事会,信息一旦泄漏就可能让黑客容易进入一些科技系统,因此必须建立科技跟业务并行的风险管理整体措施。

风险出现时,我们要面对监管、客户、民众、媒体。所以这一系列活动中,业务部门、企业职能部门都是要并行运作的。风险管控的措施不只是科技,同时要保证多数人有网络安全措施跟意识,董事会跟高级管理层有责任建立这一种文化。

2、定期评估及监察

银行网络安全要建立一种控制基准,包括治理层面。类似的国际基准有CSC20,通过标准比对,找出差距,不断修改补充。

2015年时金管局提问各个银行:网络安全团队有多少人?需要配备足够的人员及人才,足够的财务投入,才能把网络安保做好,定期向董事会汇报。

3、业界合作及应急规划

金融机构要跟其他行业机构、警方互相合作,共享一些网络信息;同行业间互相分享不同的安保信息。做好应变测试,确保能够及时处理。这里的应变测试是指整个机构面对问题的时候的应变处理。

4、定期独立评估及测试

足够的网络安保专业人才跟知识是衡量机构的标准。另外,要请有资质的顾问公司对机构进行独立评估,这也是监管要求之一。

  • 网络防卫评估框架

金管局推出了「网络防卫评估框架」,近几年还在继续完善跟运作。

评估框架要求:银行根据自身交易量、提供交易服务的复杂程度和自身规模,进行自我评估,判断固有风险的高中低程度。银行的规模越大、业务越复杂、提供的产品越多,固有风险就越高。

还有网络安防成熟度的要求。固有风险越高,成熟度要求就越高,通过独立的顾问公司评估银行,逐项判断是否满足要求。再根据评估结果找出差距,银行必须优化改进。

每个银行的评估结果最终都要上报,金管局根据结果提出意见,银行再根据意见和评估结果制定修订的计划进行整改。金管局还要求提供修订报告,独立顾问公司对银行做审查,评估整改的方案跟措施。

半年后,会要求银行找顾问公司再做一次评估,确认方案是否仍然有效。全部做完后,再要求各个银行去找顾问公司,找出不同的场景在机构里测试,然后从端对端中看能否找出漏洞。

  • 网络评估的要素

成熟度评估包括7个领域,水平分为基本、中级、高级,总共有366项,具体看是否完成,服务程度等。独立顾问公司帮忙审核,列出不符合的项目。

其中,风险识别这一点是指如何保护系统,如何侦测到分别来自内部和外部的攻击活动,如何去法院处理,同时恢复服务,这就是风险意识。

最后一点是第三方的风险管理。近年来,各国对第三方的风险管理要求趋严,相信接下来会有更多第三方服务商(相关条例出现)。比如银行将呼叫中心业务外发给第三方供应商去做,必须监控供应商是否存在漏洞,以免影响服务质量。还包括关键的硬件供应商,需要有替代方案应对突发问题。

第三方扩展会越来越多,因为现在的银行讲究效率——传统银行要求客户到分行,或用专门手机银行做金融交易,但现在有Open API开放这些应用的接口,越来越趋向于B2B方式。

B2B2C模式是银行跟其他非银机构合作提供服务,共同经营双方客户。在这种模式下,用户可以通过一些像网商或航空公司等非银机构,在他们的网站直接享受银行服务,例如开户、转账。

同样,银行也可以建立这种平台,提供像汽车销售、旅游计划等商业合作。当第三方公司网站出现问题,银行必须采取行动,及时判断这些机构存在的问题,判断其可信资质。

最近金管局对银行又提出关于人工智能的一些要求,指明如果银行采用AI产品,或与机构服务商合作,董事局跟高层管理也必须负责AI引起的结果。这就要求使用者对应用程序要有足够的专业知识,和对人工智能的认知。

AI要用数据训练模型,因此也对数据质量有所要求。AI模型还要做好核实,包括模型的可审计性。如果采用外部机构的AI产品,比如NLP,涉及的编制也需核实。

外部AI或服务如何管控,如何确定变更过的模型准确性不变,如何检测程序中是否有恶意部分……这些对银行来说都是不小的挑战。

云在内地银行应用较广泛,香港银行相对较少,这与监管不无关系。如果银行使用外部云,(在香港)它会被当成是技术外包,那技术外包也有自己的条例,包括全程监控,可审计等。云计算上的复杂状况不一定完全符合监管要求,要明确监管条例,银行才能启用云。

银行用云也分为很多情况。比如银行内部出于成本效益考虑,选择自建云。有些银行是跨国且有很多子公司,它需要让一些企业客户跟银行IT系统有连接,比如银企直联,企业的ERP也能够连到银行,在处理账务或资金调拨时更方便。

  • 欧盟GDPR VS 香港个人私隐条例

1、香港私隐条例列出6大原则,基本是原则性条文。而欧盟在2018年推出的资料保护条例叫GDPR,罗列了99条具体细则,它比香港的条例更严格。

2、香港把身份证、电话号码等算在隐私范畴,而GDPR则将生物特征、车牌号、相片、IP地址、色情网络记录等等都全部列进去。

3、GDPR条例会覆盖到其他的国家和地区,比如别国网站的产品,如果销售对象是欧洲地区的客户,或是销售中用到欧洲语言,会被计入GDPR。

4、如果有出现问题,你一定要72小时内上报到某一个机构。

5、很多地区的私隐条例只讲了原则,没有具体的违规处罚方式。欧盟就规定很清楚,说最高可处以2000万欧元的罚款或者全球营业额的4%。

如何持续优化一个金融机构的网络安全能力?

第一,定期外聘一个具认受性的顾问公司对机构的网络安全做成熟度评估

这是多维度的考察,并不只是检查技术上的防护。比如毕马威的成熟度评估模型,总共分了6个维度,评估管制跟领导、整体信息风险管理、法律合规方面机制等;运作与科技只占一项,还有业务持续性、人员素质……每个维度又分成5个层次,从初始级到优化级,定出一个最适合自己的标准。

金融机构如果期望更好的效果,就应该通过各个维度找出差距并整改补齐。 整改时要对措施的有效性进行评估,整改后再对措施的持续性作评估。

由于不同的顾问公司的评估模型稍有差异,因而找不同的公司作评估,可以从更多的方位找出改善的地方。

第二,不断演练

机构应事先制定好不同的场景,像网络攻击、阻断式攻击、钓鱼等,并制定好每年演练场景的数量、所需时间,按照规划完成。从高级管理层到终端用户、科技人员、科技系统等全都会加入。另外也可以聘请外部机构进行网络安保方面的攻防演练,找出漏洞并修补。

系统中的补丁,也是很多机构容易疏忽的一点。一个中大型的机构,比如服务器、网络设备、终端机等,时而有补丁可更改,但也要分析实际作用再做定夺。而且要及时知道新的补丁上线时间,这要跟供应商保持沟通,确定补丁需要的时间、风险优先级等。

有没有出现过没按规定打补丁的事件?早几年的Wanna Cry(永恒之蓝)就是,它个病毒会锁掉所有档案资料,黑客收取比特币之后才能解锁。当时全球很多地方都中招了,如果及时打上Microsoft Shop的OS补丁,是可以避免的。

第三,人员意识培训。负责网络安保的人员是否具备专业知识跟能力?这必须由专业人才进行培训。很多人认为,有充分的实战经验就行了,但还是必须要求有专业认证。

因为经验会随人员流动,有专业认证起码能保证网络安保人员认知的水平在同一水平线。像科技风险管理或者网络安保之类的认证人员数量,至少要占团队90%以上。同时经常举办不同的网络安保培训活动。另外也可以通过攻防演练、座谈会、网络学习、钓鱼测试等培养安全意识。

  • 引入智能化分析工具

很多机构有不同工具,例如防病毒、防攻击、防侵入等,在服务器上有防脆弱、防档案更改的工具,网络有一些像DDOS防阻塞式攻击的工具。

监控,其实都是监控到不同前中后台、终端或是服务器网络设备日志。日志单独查看可能很难看出问题,需要引入智能化分析工具,像Cyber Security Analytic,把不同设备的访问日志以及一些来自外部的访问IP的信息聚合在一起通过工具进行关联性分析,找出较为隠蔽的问题。 

例如有些服务器或应用系统正常运行,但某时段有一个IP在极短时间内出现不合理的交易数量,便可藉此提示是否有使用机器人进行操作的可能。

实际上,近两年病毒或DDOS类型的攻击反而较少,更危险的是APT攻击(Advanced Persistent Threat,高级持续性威胁)。它是在一个位置记录搜寻漏洞,找到更重要的一个设备,再在设备上找新漏洞,找到它认为合适的时候才发起攻击,手段非常隐蔽,攻击让人措手不及。这就需要建构大数据网络安保分析平台来应对。

实际上,网络安全、信息安全是政府、企业跟个人的共同责任。政府要做好立法和执法。企业方面,各个企业的网络安控水准跟意识各不相同,有些中小型企业没有资金跟人才去部署,怎么保证他们都有这样一种安全意识也是问题所在。

同时,个人也要提高安全防范意识,注意个人ID密码被盗,钓鱼邮件,WiFi安全性等等。甚至平时你填的表格信息,也要考虑到信息用途,说不定很多信息因此就丢失。

即将启幕

CCF-GAIR 全球人工智能与机器人峰会———AI金融专场

历届 CCF-GAIR 已汇聚多位诺奖、图灵奖得主,28位海内外院士,21位世界A类顶会主席,103位Fellow,400多位知名企业家以及100余位VC创始人出席。

8月7日-9日,《AI金融评论》将在第五届CCF-GAIR中举办「AI金融专场」,目前统计学“诺贝尔”— COPSS总统奖得主,摩根大通执行董事,世界顶级学会主席,金融巨头首席科学家、首席风控官,已确认出席。

会议详情与合作,可联系专场负责人周蕾,微信:LorraineSummer

更多会议安排点击https://gair.leiphone.com/gair/gair2020查看。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /5eI4LvvKPTpPVRSq.html#comments Tue, 23 Jun 2020 18:01:00 +0800
邦盛科技王雷:AI风控的「能力边界」 //www.drvow.com/category/DataSecurity /ahRf3GMGF2J7lNtI.html 没有一条真理,可以解决人生所有的难题;也没有一项技术,可以帮助一家企业所向披靡。

金融科技行业,纵使是一个简单的项目,也需融合算法、专家经验、工程部署、接口打通等一系列环节,才能完成一套解决方案,远不止一项单点技术就可以“打包票”。

在这个过于信仰技术的时代,知道技术能做什么固然重要,知道它不能做什么也许更重要。

为此,雷锋网《AI金融评论》策划了「AI能否解决金融刚需问题」系列选题,借同一个话题,对不同背景的受访者、产品和客群各异的企业们进行采访,期望在不同的商业和技术认知下捕捉观点碰撞的火花。

在前三篇采访中,我们采访了冰鉴科技CEO顾凌云、慧安金科CEO黄铃、品钛执行副总裁李惠科。

本系列的第四篇文章,由邦盛科技执行副总裁王雷讲述他从事「AI金融风控」多年旅程中经历的有趣故事。

以下为王雷的亲身经历:

“头疼”的难题

一直以来,银行对「信用卡套现」的行为都十分头疼。

信用卡,本质上是一种贷款。银行希望贷款用于消费,而不是炒股、炒房甚至赌博。但是,现实生活中,很多人并没有合规地使用这笔钱,从而衍生出了「套现组织」。

对于银行来说,信用卡里的钱如果不是用于消费,而是用于投资、赌博,一是增大了这笔钱不能返还的风险,二是违背了国家的贷款政策。

所以银行会通过一些技术手段,对套现行为进行识别、监测。

邦盛科技之前就接到一个大型银行的订单,他们本身有一个在风控领域积累了很长时间和经验的优秀团队,但是还是希望在这个基础上更上一层楼,于是找到我们,希望通过金融科技公司的AI能力,引入解决问题的新思路。

当时,这家银行已经能很好地识别出哪些个体的行为属于骗贷,但是对于那些变化多端、组织严密的“专业”骗贷团伙,还是有些束手无策。

在项目初始阶段,客户对我们的期望很高,认为我们一定能通过更先进的技术和方法,通过对个体骗贷行为的分析,找到某种联系,识别出诈骗团伙。

那会儿,其实许多机构还没能达到这样的水准,即使是行业里最好的金融机构投入了大量精力,也没能十分精准的识别出这些诈骗组织。而我们又处于创业初期,经验匮乏,当时并没有信心能完成这个任务。

当然,有没有信心和做不做,是两码事。我们决定接受这个挑战。

一口气“抓”了几千个犯罪团伙

样本,是智能风控想要发挥作用的重要前提。

想要通过AI识别出诈骗团伙,追本溯源,还是得从高质量的样本入手。

而样本的质量高低,很大程度上依赖于专家的经验。在风控领域,专家的经验是比AI能力更稀缺、更重要的资源。比如薅羊毛是怎么薅的、什么样的行为是薅羊毛,专家会通过多年积累的经验和规则去识别哪些行为是“薅羊毛”、哪些行为属于盗卡、哪些是洗钱、哪些属于申请欺诈等等。

我们团队中的优秀专家对这家银行的样本进行了分析,发现它们的样本质量不是非常好。

于是专家们通过在风控领域多年的经验,对样本进行了加工,获得了一些我们认为比较好的样本。在此基础之上,我们使用了机器学习建模平台和关联图谱平台,把可疑的个人和团伙都甄别出来。

那次,我们团队几个人在两个多月的时间里,揪出了大几千个「信用卡套现团伙」,几千个账户,并查出几十万张有问题的信用卡。

经过那段时间的不断探索后,我们对整个行业的理解有一种豁然开朗的感觉。

之前,我们在没有开始做“识别套现团伙”的工作时,认为这是一件很难的事。但下一次在做其他的事情,我觉得是可以解决的,而且思路非常清晰。

其实,那次项目因为涉及到的银行体量非常大,我们面临的风险和压力也非常大。

但是我们顶住了压力,积累了许多欺诈团伙的特征和画像,并对模型进行进一步的优化。

后来这家银行通过我们提供的线索进行了调查,确定了这些人的确属于套现团伙,并降低了他们的信用卡额度,并对部分信用卡进行锁卡处理,效果非常好。

也是因为这次经历,我对AI在「风控领域」的应用价值,有了更直观的认识,使得我对AI在风控场景下的应用,更加有信心。

如今,邦盛科技为这家国有大行做了一个更大的项目,一个包含申请反欺诈、电子渠道交易反欺诈等全方位、全行级的反欺诈系统。

而“识别套现团伙”成为了整个大型项目中的一个组成部分,继续为这家银行提供服务。

抓住银行的心

思之所想、解其所忧,才能抓住一个人的心。

同理,想要获得银行大单,首先要认识它,然后解决它做梦都想解决的问题。

在和银行客户打交道时,不一定所有时间、所有产品,它都会觉得满意。这时,我们需要对项目的效果进行量化,沉浸到它的角度思考问题,让它信任你。

因此,我们会时时刻刻追踪AI产品的效果,并制定一系列可以看得见、摸得着的指标,让它对我们工作的效果有一个清晰的认识,建立信任感。

比如拦截非法金额数目、对客户的干扰率程度、风险等级,我们会把这些有关风控的数据或者结果记录下来,作为统计最终模型好与坏的一个标准。

我们一般建议客户,三个月或者是六个月调整或者优化一次模型。频繁的调整,不是银行的风格。

对于银行等金融机构来讲,“稳定”压倒一切,其次才是改善。所以,他们对新技术的应用也是比较谨慎的。

银行不会轻易改变自己现有的风控方法,因为改变意味着不确定的风险。只有观察到技术和效果真的十分稳定,他们才会采用新的技术系统。

AI在信贷领域主要防控两种风险,一种是欺诈风险,另一种是我们常见的信用风险,比如我们年轻人十分熟悉的“芝麻信用”和“微信支付分”。

一笔贷款的发放,银行得先判断它是否是有欺诈的风险,然后再判断它信用风险的高低。

首先,金融机构最担心的事儿是被骗子欺诈,把贷款放给了骗子。

当通过反欺诈技术将骗子拒之门外后,银行还要担心普通人能否正常还钱。普通人也有可能因为做生意经营不善、丢了工作或者社会环境的改变等因素,还不上钱,所以要判断他们的信用风险。

在评估信用风险上,「评分卡模型」是可解释性非常好、也很稳定的一个模型,现阶段也使用的非常多,各家银行都是比较习惯使用这种传统的方式。所以,我们在这一领域,需要我们金融科技公司技术能力的场景并不多。

而在反欺诈领域,越来越多的金融机构开始接受机器学习模型。因为欺诈行为更具有隐蔽性,欺诈风险比信用风险更难以控制。

而且业内一般需要六个月来训练控制风险的模型,上线模型至少又得三个月,加起来就是九个月。在这段时间里,整个市场的欺诈形式是会发生很大变化的,欺诈团伙发现金融机构会欺诈行为进行防控后,他们还会变换手法。

针对这样的情形,邦盛科技专门在模型训练中设立了一个环节——特征工程。在这个环节中,我们尽量呈现出更多的特征,我们将几千到上万个特征输入到一个模型中,使它覆盖更多的可能性,虽然不能彻底解决问题,但通过这样的算法调优,欺诈行为的成本会越来越高。

此外,银行需要考虑自己所用的技术,是否符合监管政策的要求。

机器学习这类技术,最大的一个问题是不透明、不可解释。它使用的是非线性的算法,当模型说贷款可以放,但是它推理的过程是不可逆、也不可用文字解释的,这样在使用过程中就会受到一些限制。

模型本身是一个算法的配合,我们也在尝试通过一些技术方式,来增强模型的解释性。

AI不是万能的

邦盛科技从创业初始,到如今与中国农业银行、中国建设银行、招商银行等多家大型银行合作,对行业的理解也是经历了一个从无到有的过程。

但是AI也存在很多不能解决的问题。

刚刚提到AI风控效果的好坏取决于样本。在欺诈等场景中,样本天然比较充足,而信用卡盗刷、账户盗用等场景下,因为银行的防控力度比较强,发生的案件数量较少,能积累到的样本也就较少,使得智能风控的效果也是参差不齐。

现在,机器学习和AI应用在金融的各个领域都在尝试,但是每个银行对样本积累的重视程度也不一样,所以有的做的比较好,有的做的一般。

目前我们对样本的依赖程度过高,所以业内很多公司也都在尝试无监督或者半监督的技术方式。

有监督就是有样本,无监督就是无样本,半监督就是样本质量不够高。

有监督的样本,是团队从业务中一点点积累下来,通过规则体系和专家经验,输入到模型,然后模型跑起来。

采用无监督的方式,一般是因为团队没有积累样本,又没有这个领域的专家,于是依靠纯粹的算法,通过聚合量、聚类等数理关系,找出高风险的金融交易,提取这些异常的样本后让专家判断。无监督的流程是先通过模型得出结果,让人来判断,然后模型再根据人的判断的结果去优化。

在实践中,我们不管用哪种技术方法,我们都会建议客户采用综合的解决方案,而不是单一的AI产品,这套解决方案包含着专家经验、规则体系、模型体系、图谱体系、大数据计算等,这些元素必须结合在一起才能形成解决问题的合力。

社会上大部分的问题本身,都是一个很复杂的东西,它需要系统化的思路方法和技术才能解决,我们不能单一地认为依赖于某一个高新技术就能解决所有问题。

我们每年会招很多新人进来,也会接触到很多新入行的创业者,我整体的感觉是,大家有点过于迷信技术,迷信高端的算法。

任何一个技术的应用,都有前提条件,比如数据环境、样本质量。每一次对AI模型的调整,少则三个月,多则几年,运营的成本也非常高。

如果环境条件不允许,技术就很难达到大家期望的状态。

所以对于很多这些新入行的优秀人才,我建议先对这个领域有一个比较深刻的业务理解,看看没有能力给技术创造出一个好的环境出来。

没有对业务足够深刻的理解,不能把没有达到期望的数据转化成高质量的样本,模型很难运转起来。

雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /ahRf3GMGF2J7lNtI.html#comments Thu, 18 Jun 2020 10:13:00 +0800
京东数科首度公开联邦学习战略全布局,薄列峰详解两大算法突破 //www.drvow.com/category/DataSecurity /WtTCt6kSgJBbUNiX.html 近日,雷锋网《AI金融评论》联合香港人工智能与机器人学会(HKSAIR),邀请京东数字科技AI实验室首席科学家薄列峰做客公开课,以《京东数科的联邦学习战略全布局》为题进行分享。

除了分享横向和纵向联邦学习以外,他也通过案例形式给出了京东数科对联邦学习性能与安全性方面的研究成果,以及区块链和联邦学习的融合讨论。

以下为薄列峰的课程分享全程回顾,雷锋网AI金融评论做了不影响原意的编辑:

随着互联网发展,数据安全管理越发严格,对数据管理的关注也越来越全面化。怎么在保护数据隐私的情况下,还能做一些好的机器学习模型,应用到各种各样的问题?这就变得越来越重要,需要从集中式机器学习过渡到分布式机器学习。

而2006年开始掀起的深度学习热潮,更把AI和机器学习模型对数据的需求推向了顶峰。

什么是联邦学习?就是在满足数据隐私安全和监管要求的前提下,让人工智能系统更加高效准确地共同使用各自数据的机器学习框架。

应用方面,举一个简单的例子:各企业或机构大家都出不同的数据,相互进行模型学习,又不会看到对方的数据。数据还可能分布在不同的国家,各国数据监管政策有所不同,也可以把分布在各国数据高效利用、训练模型,不存在数据上的交换。

两个典型的联邦学习算法,分别是横向联邦学习和纵向联邦学习,横轴表示特征维度,竖轴表示用户维度。

横向联邦学习,看两方的数据和标签,用户重合度非常低,特征重合度比较大。这里显示的是用户无重合的极端情况,实际情况中它可能仅仅重合90%用户特征,5%用户重合,到时进行对齐即可。

纵向联邦学习,两方用户重合较多,可对用户的部分对齐。A、B各拥有用户一部分数据,可能都会有用户的一部分标注,纵向联邦学习也能去处理。

对计算机视觉、自然语言语音识别等领域而言,2006年深度学习(的出现)是非常大的推动。大家熟悉的语音识别、语音合成、人脸识别等应用,都是大量深度学习模型在背后发挥作用。

深度学习、梯度下降与横向联邦学习

  • 三种典型深度学习

首先是深度神经网络(Deep Neural Networks,DNN)在语音识别误差上有30%的简化,性能有非常大的提升。

后来是卷积神经网络(Convolutional Neural Networks, CNN),它的训练误差相对于其他方法降低了十个百分点左右,在计算机视觉领域有着非常广泛的应用。

递归神经网络(Recursive Neural Networks,RNN)在自然语言处理领域是非常基础性的工具。

优化神经网络的典型方法:不管神经网络有多复杂,大家实际上都能把它写成一个f,一个输入加一个参数。常用方法之一是随机梯度下降。

大家都知道,优化最基本的是梯度下降,就是精确计算梯度,再对参数的方向和模型参数用梯度做下降。如果我的样本量非常大,有100万、1000万,做梯度下降计算代价非常高。

实际运用中,我们可以随机提出采样。极端情况下,可以只采用一个样本去估计梯度,比如包含50-100个样本的小样本集,它的梯度估计不准确,但计算代价非常低,这样能有效优化神经网络参数。

如图,红线是随机梯度下降的结果,梯度估计不准所以路线较曲折。蓝线是典型的梯度下降结果,估计比较精确所以不会拐弯的路线。但最终都会去到最优解。虽然红色路线比较长,但它走每一步的代价明显更低,相对于随机梯度而言,整体效率还是更高。

这是典型的横向联邦学习框架。设置里下面是客户端(client1,2,3,……,t)。蓝色云是服务端(Server)。横向联邦学习的设置是数据的不同样本存在不同用户端,这实际上是对传统分布式框架的改善。

首先每个客户端训练模型,产生参数w1、w2、w3……wt,参数传到云端,服务端对模型做平均,得到 w-。服务端做完模型平均之后,每个客户端再下载模型w-,再对模型做几轮梯度下降或优化,再将模型上传到服务端,循环往复,形成这样一个迭代的过程。

在这个过程中,客户端的数据并没有向服务端传递,传递的只是模型的参数w,保护了客户端数据的隐私。

它与传统分布式学习的不同之处在于,后者在此传递的是梯度;在联邦学习里,客户端向服务端传的是模型的参数。实际上现在也有证明表示,梯度信息其实也能泄露不少数据信息,而模型参数经过几轮梯度下降后,对数据的保护会做得更好。

如图,联邦Average(FedAvg)和 联邦SGD,前者实际使用代数明显更少,就可以收敛,SGD需要的代数明显更多。

在很多setting里,在分布式学习里,通信代价通常会是瓶颈,这个差异意味着FedAvg能有效降低这一代价,提升了训练效率,同时也加强了对数据隐私的保护。

在这个设置下,实际上服务端还是知道我的模型参数的,有没有可能进一步对我的模型参数加密和保护?其实不需要加密也有相当的安全性,但加密能对攻击、对服务端、对可能的数据欺诈有更好的防护。

  • 同态加密

简单来讲,这是一个密码学的算法,主要操作是生成公钥和私钥,加密算子,应用到明文,产生密文;用私钥对密文解密,产生明文。同态加密的特点之一就是,两个数m1和m2的和同态加密,等于m1的同态加密加m2的同台加密;m和一个常数相乘的同态加密,等于对这个样本同态加密,再乘以常数。

横向联盟学习+同态加密:和刚才的情况类似,传递参数过程中,可对w1……wt同态加密,然后在服务端对同态加密域做平均,以得到模型参数。

在这一设置下,服务端不知道私钥,但客户端知道。服务端实际上不能对w-解密,甚至连模型参数也不知道,它只知道同态加密域,但没有私钥就没法解密。客户端下载参数,用自己的私钥解密,再更新自己的模型——因此同态加密也提升了数据安全性。

横向联邦学习之人脸识别应用:人脸识别有多场景的数据收集,比如打卡的门禁数据、多角度监控、证件类数据等。甚至还有一些海外业务,海外数据不能传递到国内,联邦学习就能解决这个问题,有效提升在人证场景或配合式场景下的通过率。

Q:各方的特征怎么对齐?

在横向联邦学习,大家的特征集是一样的。举个例子,a方和b方都是人脸数据,那么模型取的就是人脸数据,可以规范化到一个图像标准,比如说128×128的头像,这样输入x就自然对齐了。

除了同态加密,另一个在横向联邦学习应用较多的是差分方法,思路是在分布式学习的时候传递梯度,同时对梯度加噪,以噪声方式保证梯度安全性。

纵向联邦学习

假设两个公司各有数据的部分特征,同时 b方拥有数据的标记,可以用一个安全的方法对齐数据ID,再做纵向联邦学习。

这通常需要一个合作者Collaborator(有些方式可能不需要),AB两方的数据交换都需要对它加密。此处设置为:合作者有公钥和私钥,两个机构a和b,分别都只有公钥,没有私钥,能通过加密保护自己的数据。

得到同态加密域的梯度之后,会对梯度加噪声再送到合作者处,合作者会用自己的私钥解密,然后把梯度还给它。在各方得到自己的梯度之后,可以进行梯度下降。

Q:若合作者方占主导地位,是否有泄露风险?

这是实际操作中需要注意的问题,比如A方特征占10%,B方特征占90%,这块你能写出的方程数量明显少于参数数量,理论上是推不出来的,但随着不平衡性的增加,安全性也会下降。

纵向联邦学习某种程度上,是有信息泄露的,但是从大方向说,它泄露的信息足够少以至于别人推不出来主要的特征。

线性回归是一个典型的算法。在很多模型的应用中,当样本量较大,线性回归的性能或许不会很好。此处常用的方法之一是随机森林(random forest)。

  • 随机森林

Step 1:随机森林会对原始特征采样(bootstrapped)。这个步骤是放回式采样,比如说100个训练样本,它会每次放回,然后做采样100个。完成采样后,每个数的训练样本就不一样了,都是原始训练样本衍生出来的。这样主要是为了增加数的随机性和多样性,在树的集成过程中会产生更好的效果。

Step 2:建每一棵树时,在每个节点选择一个特征的一个随机子集。举个例子,这里有30位特征,建树时随机选择五维的特征;建每个节点时,随机选的5个特征都不一样,再从中挑选最好的特征,保了每个节点的多样性。

建树过程中,可以是深度优先,然后走到叶子节点,直到它满足一个判据,完成树的分支搭建,最后再逐个预测。

  • 联邦随机森林

大致思路是,主动方、被动方各一,主动方有标记,并加密标记和标记的平方,然后发送给被动方。此处三角号表示对yi、zi进行同态加密。

加密后,被动方根据自己每一维的特征,当它的这维特征被整个机制选中的时候,它会针对这个特征做直方图,然后用直方图在同态加密域的yi和zi进行聚合。每一个直方图会把它划分成很多区间,在每个区间做平均,得到Y和Z。

简单讲,主动方传同态加密后的y和zi是一个向量,该向量和样本数一样。被动方会对向量做聚合每次会选向量的一个子集,看哪个特征落到区间上,再对传递过来的yi和zi平均进行同态加密域的求和运算。在随机森林里,既要选取特征,也要选阈值,通过该阈值下的特征得分算出y的矩阵,矩阵还给主动方。

此处主动方有公钥和密钥,被动方只有公钥无密钥,所以被动方无法解密y和z,它把Y和Z的矩阵传给主动方,后者会依所得进行解密,再计算每个特征和每个阈值的得分,择其得分高者,如此即可完成随机森林中一棵树的某节点构建。重复该过程可构建不同的树和整个随机森林。

可以看到,主动方得到被动方的数据,实际只是得到聚合后自己发送的y和z,所以不知道被动方的特征,也很难推导出;被动方只知道主动方同态加密运送来的y和z,并不知道更多的信息,整个过程可以保证安全。

何为快速安全的联邦学习框架?

传统纵向联邦学习需要用同态加密进行保护,同态加密比较低效,我们是否能设计一个不依赖于同态加密的联邦学习框架

设计快速安全的联盟学习框架有如下特点:

第一,隐私能得到保护;

第二,利用树状通信结构,有效提升传输效率。利用不同的数聚合信息;

第三,新框架支持异步计算,能再次提升数据安全性。同时整个过程只涉及一些内积(此处不确定)计算,包括加噪后内积传递,所以该框架下不会用到同态加密,效率更高。

如图,模型隐私在传递过程中,会传递参数和特征的内积,再进行加噪保护,最终有数据结构的聚合。

整个框架的安全性如何?可以从理论上证明,这个算法能有效抵御精确攻击和近似推理攻击。

看主要算法步骤,在第二步可以看到聚合的是内积+噪声,以及聚合噪声,然后返回到coordinator计算所有参数和所有内积再减去聚合的噪声,得到决策值,不过此处并不得到模型参数,这也正是模型信息能被保护的原因。

coordinator在此只知道内积,不知道参数,所以它也无法推断各参与方信息。


实现过程要确保通信的安全,数据在通信过程中不会被联邦系统之外的攻击者所获取,也需要一个可信赖的第三方来进行调度。谁做coordinator?可以是监管机构,独立第三方机构等。

原始数据主要通过两项:1.任一通信节点接收到的均为加噪声后的内积,由于树状结构的差异,随机数又无法被移离,内积值因此得到保护。2.即使在串通的情况下,多个节点能移离随机数,根据内积本身也只能构造出方程,也无法通过方程精确推断所含变量。

有噪声、有内积,方程数明显少于变量数,树机制……这些多重机制都能保证安全性。

刚才所讲的逻辑回归还是线性模型范畴,怎样把线性模型推广到非线性模型?这也是关键,推广的非线性模型精度会大幅提升。

右边算法概念大致是:先产生随机特征,生成随机数,然后做cos生成随机特征;在随机特征域上,再做刚才提到的这种联盟学习框架,来完成随机特征的参数学习。

随机特征这一步引入了非线性函数,它能很好逼近原始核函数。此处,各参与方会有一部分随机特征,特征上的模型参数也保留在各方,不为他人所知。全程将通过噪声、聚合等方式提升安全性。

随机梯度下降法,是首次实现了快速安全的异步并行纵向联邦随机梯度算法,并理论上分析了其收敛率核问题的双随机梯度算法,则是首次实现了大规模、高速、安全的基于核方法的纵向联邦学习。

测试性能结果对比如下。LIBSVM是很多同学在研究机器学习时常用的工具,PP-SVMV是一个隐私保护算法,FDSKL则是我们目前所设计的算法。可以看到训练时间的对比。

PP-SVMV涉及核矩阵,因此在大样本上操作非常慢。FDSKL收敛速度与DSG类似,后者没有联邦学习的设置。FDSKL几乎达到了不在同态加密状态下的训练速度。

精度结果对比如下。FDSKL也接近了原始的不用联邦学习的效果。

京东数科的最新工作也将在KDD发表。

区块链联邦学习

区块链受到很大关注,数据上链有透明化、分布式、不能篡改等优势,它是一种不依赖第三方,通过自身分布式节点,进行网络数据存储验证传递和交流的技术方案。

区块链的分布式、去中心化特点,和联邦也有一些关系。实际上,联邦学习在大型的多方参与项目中都有类似机制,也可以考虑采用去中心化。

最简单的应用是,把联邦学习和区块链结合,建立在区块链上的联邦学习算法。我们也完成了二者更深层次的融合,包括共识机制等。

我们认为二者的结合在未来会有越来越多的应用。区块链可以解决数的存储,具有不可篡改性,联邦学习能对数据隐私做表保护,其中有不少地方互补。

互动问答精选

问:联邦学习可以不加入加密技术,不加密是不是也算对数据隐私保护?还是说得进行加密后,才算是各方进行隐私保护?

薄列峰:就像我刚才在横向联邦学习中提到的那样,第一种算法实际上不加密,是用均值进行保护,整个过程中并没有传递数据。

不同类型的联邦学习算法,有不同方向的数据保护。现在的问题是,哪一种对信息的保护级别更高,效率更高?同态加密是一种方法;差分隐私基本上就是给梯度加噪。这方面,像我们刚才提到的方法,都是不用同态加密对数据保护的联邦学习算法。

问:联盟学习在京东有实际的落地场景和业务吗?

薄列峰:有,其实联邦学习就是在做多方机构的落地,比如人脸识别、营销、风控等场景,京东数科都有案例。

问:联邦学习和边缘计算的区别是什么?

薄列峰:边缘计算讲的是每个用户端有自己的计算设施;联邦学习讲的是对数据隐私的保护,同时合作建模。大概念上还是非常不一样。当然,在做这种分布式联盟协议的时候,它也会用到各自的客户端,有自己的计算设备,在这一点上它会和边缘计算有一些结合点。

问:怎样保护在客户端的运算速度?

薄列峰:客户端的运算速度,得靠其自身计算资源来进行保护。如果计算资源比较有限,通常它的数据也比较有限,参与更少的计算。如果数据比较多,它的计算资源也多,如果是多个机构合作,这都可以协调。

问:实验中列出来的时间对比,是参与方与第三方之间通信,是内网还是外网?

薄列峰:我们在实验比较时,没有特别考虑网络延迟因素,是相对理想情况下的比较。有网络延迟的话,在计算的情况就会增加网络延迟。网络延迟针对每次具体的setting并不一样,所以并不容易做标准化的比较。我们比较的是没有网络延迟的情况,具体有网络延迟或者有各种情况,可能还是需要在具体设置里做更好的处理。

问:每个客户端上的特征异构以及标签异构如何理解?可以举个例子吗?

薄列峰:这个看是水平联邦学习还是垂直联邦学习。

在水平联邦学习情况下,各个客户端也有自己的标记。刚才我举了个例子,比如说image net,每一个有1000类,每一类有1000个样本,这样你有100万个样本。假设有100个客户端,然后每个客户端有1万个样本,它有1万个样本标记,然后大家可以用横向联盟学习框架,可以有效地利用每个人手上的样本来建模。最终,每个参与方建造的模型都用了别人的样本,但是又不会去实际获取别人的数据。

在纵向联盟框架下,举个例子,大机构和小机构做完用户对齐,大机构作为主动方,小机构是被动方,各参与方都可以商讨解决。

像横向联盟学习,在很多时候,参与方其实就是同一个公司的分布在不同的国家的情况,信任度实际上是有保证的。即使说不同的机构之间,大家也是有相互的信任度。如果完全没有信任度,要去做这样的联邦学习,可能还是比较难的。参与方可能会对整个框架进行攻击。它的安全性会变得更加复杂。所以,我们现在还是假设各参与方是honest,是相对比较协作的,在实际应用中是可以做很多协调的。

问:目前在联邦学习研究遇到的瓶颈有哪些?是否有后续未来的规划?

薄列峰:后续京东数科会在联邦学习上做大量的投入,因为我们认为联邦学习是整个人工智能,包括整个机器学习的基石,它有潜力去改变所有的机器学习算法。

我们会做重点布局,研发越来越多的联邦学习算法,来进一步提升联盟学习在各个领域的落地,提升它的有效性和效率,包括和区块链结合这种前沿方向。我们既会去提供一些可信度较高的软件,同时也会去落地,考虑前沿的研究,带动整个联邦学习生态的建设。

问:是否可以动态变更合作机构的数量?

薄列峰:合作机构的数量,是可以变化的。在纵向联盟学习里,相对比较复杂。它不参与之后,可能有些东西需要重新开始。

但横向联盟学习,相对比较容易,因为大家都是拥有不同的样本,假设有1000个参与方,两三个不参与,那就少了千分之2,千分之3的样本,并不影响整个联盟学习的框架。横向联盟学习里,也有一些机制,可以保证参与方突然不参与,还能完成这个模型的训练。

问:联邦学习可以用于表情识别吗?

薄列峰:可以。举个例子,不同机构之间有表情识别的不同数据,大家可以利用彼此的数据来增强模型,同时又不想把数据给到对方。表情识别更像是一个横向联盟学习问题,怎么激励大公司愿意跟小公司之间共享信息。

我的个人理解,它还是商业利益的驱动问题,怎么鼓励这件事。如果现在联邦学习的整个框架,只有一个小公司参与,大公司可能缺乏热情,但是如果有1000个小公司参与,那么这样以小积多,有更越来越多的可供交换的数据,大公司参与的意愿就会变强。

问:服务器端,共享梯度和共享模型参数有什么区别?

薄列峰:共享模型参数是做了几轮梯度下降,针对共享梯度,它的一大优势是通信代价会低;同时,对整个梯度信息的保护,也会更好。

关注「 AI金融评论 」,在对话框发送关键词“听课”进群,即可收看课程直播,和往期课程全部回放。

雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /WtTCt6kSgJBbUNiX.html#comments Tue, 16 Jun 2020 20:54:00 +0800
微众银行首席AI官杨强:联邦学习理论基础、四大应用场景与微众的AI全布局 //www.drvow.com/category/DataSecurity /fB4q2R6BgELoT95G.html 近日,香港人工智能与机器人学会(HKSAIR)创会理事长、微众银行首席AI官、香港科技大学讲席教授杨强老师,领衔HKSAIR《AI金融》系列线上讲座第一课,主讲联邦学习及其四大应用场景。

以下为杨强教授演讲全文,雷锋网做了不改变原意的整理:

我们这次的课程系列,与当前大家在工业界和学术界非常重视的一个议题相关,就是如何利用数据做人工智能的模型,同时又能够保护用户的隐私,保护数据的安全。

很多同学听说过深度学习,听说过监督学习,可能没有听说过联邦学习。这个也是要给大家交代一下联邦学习的由来。

为什么我在微众银行建立AI团队?我在观察金融的各个方面能不能用AI的模型给包装起来。因此我们设计了以下四大版块,产品和业务已经出炉,可以说是“AI落地急先锋”。

详细说一下AI+服务,比如开户验证身份要进行人脸/语音/指纹识别,又比如小微企业的企业主申请企业贷款上传执照要通过OCR图像识别、文字识别获取,自动产生信用评估。现在AI+服务大概每天能处理百万以上的这种需求。

以语音识别为例,我们做到了自主自研,与众多业界领先的语音识别的提供者相比具有明显优势,一是因为我们金融领域的知识,有大量特定话术和专业词汇的储备,在各种具体的特殊环境下都能处理。二是我们有非常先进的联邦学习技术,这就是今天的主题。还有迁移学习,可以很快把通用模型适配到特殊的场景。

AI+营销,有了产品也要有能力传播出去,找到对的人和企业,去提供金融服务。

怎么找到正确的需求?比如微信朋友圈,大家有时候会看到小微企业贷款广告,说明系统“认出”你是一个小微企业主。我们通过很多的特征来识别,很快赋予额度给小微企业的企业主,秒级批准。另外,推荐系统是非常有用的一个技术,我们把推荐系统和迁移学习、联邦学习结合起来,形成了新的技术优势,后面会细说。

在金融行业一个很大的优势,就是风控非常严格,要高效做信用评估,那就需要很多数据,360°来观察企业或者申请贷款的用户。但同时又不希望这些数据的隐私被暴露,如何能够做到这一点?这,就是联邦学习要做的事情。

举例:金融保险定价,我们把违约概率大幅缩减,个性化的保险定价提升8倍。小微企业风控模型准确率提高,相应地,坏账率降低。

我们有一个叫做揽月的产品,是从卫星视角往下看,能看到企业的经营状况,比方说左下角可以通过卡车个数和活跃度看到矿业的经营状况。右上角是农业种植区域,可以通过卫星评估产量。左上角是洪水泛滥受灾地区,通过卫星对地区受灾的程度进行定价。右下角是烟囱污染,环境在投资里是社会价值的体现,对环境的保护体现了公司治理水平,相应产生的ESG指数,很多也来自于于卫星图像观察。

综上所述,这4个版块,2个是前端的(服务、营销),2个是后端的(风控、资管)。

金融小数据与隐私保护的双重挑战

在这个过程中,数据是非常缺乏的。要保护我们的隐私,同时也想要服务,怎么做到?下面这句话叫做“数据不动,模型动”,希望大家就记住这7个字。这个就是联邦学习的精髓。

AlphaGo出现以后,人工智能井喷式发展。但我们周围日常的生活,有的却是小数据,不要以为大公司就一定有大数据。像在金融里面有很多的数据,其实是黑天鹅现象。比方说在反洗钱应用中用于模型训练的洗钱案例,其实数量并没有想象中那么多,还是属于少数现象。这种数据拿它来训练,效果不是很好。在医疗也是这样,每天都有那么多的病人,一定是大数据吗?

有一家公司叫做第四范式,用人工智能赋能金融场景。有很多头部银行都在使用它的产品,其中一个案例很有意思:豪车这种大额贷款,如果要建一个模型来做这种大额贷款的信用度的评估,数据往往是在上百例以内,这点样本是没有办法训练一个好的深度模型的,或许可以来训练 support vector machine(支持向量机)或decision tree(决策树),但往往不精确。

又比如,大家都很憧憬无人车的到来,但迟迟不来,其中一个重要的原因,就是因为无人车还不靠谱。我们不知道它见到一个它没见过的情况会发生什么,为了应付这种情况,可不可以把所有汽车上面的传感器、摄像头的数据全部聚合在一起,飞快地训练一个无人车的视觉模型?不行,因为每一个在路上的车辆,虽然它可以收集自己前面的影像数据,但是它不肯把这个数据和别人去共享,因为它有很多出行隐私在里面。即使这些无人车都是跟云端在连接的,模型却没有办法及时更新。

很多类似的端计算场景,就没有办法真正的实现,因为数据的割裂和短缺。

能不能把这些众多的小数据集给聚合起来,成为大数据?过去,确实是这样做的。现在,这样做的结果就是违规。

比方说,欧洲在18年就推出了一个非常严格的个人隐私法规,说数据的拥有权是绝对在终端用户那里。如果服务器端的公司,要用户的数据来训练某个模型,比方说搜索引擎的模型,它就一定要得到用户的许可。假设明天它要用同样的数据去训练推荐引擎的模型,那又得到用户那去,得到新的许可。用户如果哪天说不希望你用我的数据在你的模型里了,那么从此以后,这个公司就没有办法用用户的新的数据,这个叫“被遗忘权”。

很多巨头因此被罚,Google就被罚了5000多万欧元, Facebook也遭受了滑铁卢。 

在国内,数据的隐私保护已经是处于一个非常严格的态势,很多大数据公司,在过去都是新贵,但是现在都变成了阶下囚。我们现在在国内的银行里面工作,深知数据是红线,万万碰不得的。

应该说,联邦学习现在已经变成了国内外的技术上的一个重大趋势,并且它已经是一个跨领域的概念,它不仅仅是技术,而且是商业,它有自己的商业模式。

何为联邦学习?

在过去,数据动模型不动,也就是说我们从各地来购买数据,或移动数据到一个中心点,在中心点建立模型。

用一个简单的例子来给大家进行解释:假设用一只羊来类比机器学习模型,草就是数据,我们希望羊吃了草以后能够长大。过去的做法是,把草买到一起来建立模型。比方说左边的模型,左边的箭头是指向羊的。羊不动,但是草被购买到中心。相当于用简单粗暴的办法来获取数据,形成大数据,来建立模型。

但我们希望能够保护各自的隐私,所以让草不动,让羊动。这样羊既能吃那个地方的草,主人又不知道到底吃了哪些草,久而久之羊就长大了——这个就是联邦学习的新思路,就是让草不出草场,本地主人无法知道羊吃了哪些草,但是羊还是长大了。

比如每一个手机都是我们个人在使用,形成了一堆样本。有不同的手机,每个手机基本上取的这些特征都一样,但样本却不同。我们希望在数据不动的情况下,能够聚合这些手机上的数据的这些能力,建立大数据模型。

左边所示的数据集们,依次对应右边各终端上面的数据。它们的特征是纵向的,X1、X2、X3是类似的,但样本U1、U2…U10却是不同的。所以这个叫横向切割,按样本切割,简称“横向联邦学习”。

我们可以在本地建一个粗糙的模型,用w来表达它的参数,同时对参数加密。有密钥的人才可以看到内涵,别人和服务器也看不到加密后数据包里的内容。服务器得了加密后的参数,就可以通过某种形式,把这些加密后的参数加以更新、聚合、处理,形成一个更大的模型。

这里大家可能会有疑问,你得到的是一个加密的包,是一堆乱码,怎么可以把两堆乱码加到一起?还成为一个有意义的模型?这个问题,我留在下一页来解决。

每一个地方的数据,就对应这里有一个颜色的小表格,行是每一个用户的数据,列是每一维的特征。可以看到这个特征在不同终端上的特征是类似的,但是用户不一样。按照用户来切割,并没有按照特征来切割。

有了这样的一个形态以后,我们就可以把刚才给大家讲的故事,写成一个算法。这个算法里最关键的第4步是把运到服务器端的加密模型,这些包用一个f函数来处理,它是一个机器学习算法,作用在参数上。

我们原来有这么一种新型的加密算法,他可以让机器学习的算法可以穿透加密层进到内涵,也就是说我们对一堆加密包的某种数学运算,相当于对于某种数学运算的加密。这其实是一个小学的概念,叫做distribution law(分配律)。

同态加密,可以把多项式的加密,分解成每项加密的多项式,A+B的加密,变成A的加密加B的加密,这是非常伟大的贡献。因为这样就使得我们可以拿一个算法,在外面把算法给全部加密,加密的一层可以渗透到里面的每个单元。

安卓系统利用刚才所说的横向切割,即横向联邦学习的方法,不断更新一个总的模型,并且把总的模型分配到本地。在这个过程当中没有数据移出本地,并且即使在云端在进行运算的过程当中,也不会偷窥到任何的这个参数和任何的数据本身。所以,谷歌的安卓系统现在已经在使用,通过基博尔系统对输入法进行更新。

如果是某互联网公司和某家银行合作,并不按照样本切分,这两家可能具有同样的样本,用户群类似,但却有不同的特征。这种情况下,数据其实是按照特征纵向来切割的,所以我们管这个模式叫做纵向联邦学习。

比方说两家数据拥有方各自建立一部分的模型,但是在建立的过程当中,它需要知道那一部分模型所计算的结果和梯度,计算的梯度来告诉最后的结果是在往哪个方向发展,这需要一个gradient和一个era。在交换过程中,又引入刚才所说的同态加密的算法,使得两边可以在不看对方数据内容的情况下,不断更新自己这一部分的模型。

这是训练的过程,我们还有使用的过程。使用的过程叫inference,也需要两方来进行。也就是说,如果有一方到一半的时候说不合作了,那么联邦模型就应该停止,这个效果也是可以实现的。

我们现在讲了两种模式,一种是横向联邦,那么横向联邦更多的是to c。to b 是几家公司有意愿合作,可能数目不多,但每一个地方的数据都是客观的。在这种情况下,他们要做出1+1>2的效果,就可以用纵向联邦来进行。

问:联邦学习和分布式机器学习最能区分的点是什么?

可能以前做机器学习的同学做过分布式机器学习,比方说有参数服务器这样的概念。分布式机器学习,目的是加速,加速的办法是通过网络、多个服务器的平行并行计算。它就要考虑把这个数据给切分成不同的块,使得每一块的计算是在不同的服务器上进行的,但是每一块它的分布又是差不多的。

但在联邦学习中,我们不能保证所有的数据拥有方,它的数据分布是一样的。分布式机器学习的目标是加速,联邦学习的目的是合作,同时保护隐私,所以最终目的还是不一样。

问:联邦学习和安全计算是什么关系?国外是不是有类似的这种经验?

安全计算应该说是联邦学习的重要组成部分,联邦学习不是一个孤立的算法,它是一个综合性的学科,安全计算是为它提供工具的。前面说到安全是用同态加密来进行,也可以用其它的方法,比方说姚期智院士发明的Garbled Circuit(混淆电路)。

问:区块链听起来和联邦学习有点像,都是在多方进行的,它们是不是有些异同?

它的做法可能有些相同,但是也有巨大的不同。相同的地方是它可以用区块链的分布式记账功能来进行有效的激励措施。激励措施是我刚才所没有讲的,就是说怎么鼓励参与方持续地投入,参与到联邦里面来。同时去中心化的概念,也是我们尤其是纵向联邦里面的一个概念。

但一个很大的不同是,区块链为了保证 transparency,还有保证数据的不可篡改性,那么它要把同样一份数据多次copy到不同的场景,最后大家要有一个vote的机制,但是联邦学习却不然,联邦学习是一个数据,只有一个copy,它不能够出本地,所以它的目的就是通过这种uniqueness的方法来保证用户的数据的隐私和安全。

还有我们新提出来的虎符性概念,就是多方参与,才能够计算。缺了一方,这个就无效,就像战国时代,你要把虎符两个印要对上才能够用兵,这个是联邦学习的一个优点。

问:如果有一方数据是坏人怎么办?

比如横向联邦,如果有一个手机,它其实是坏人,它参与了计算,那么它每次贡献的模型都是在下毒,也就是说它在把最后的结果在朝着他对它自己有利的方向发展,或者在纵向联邦的时候,两方当中,其中有一方,它的目的就是为了窥探对方的隐私, 怎么办?

在场景下,我们有各种各样的做法。比方说做OCR,written text是0,这个是原始数据,我们让计算机识别0。如果不做加密,我们没有一个机制,这种所谓的对抗是可以做到的,坏人是可以通过参数或者一系列梯度的泄露可以反猜原始数据。

在建立模型训练的过程当中,如果这个模型的 gradient不断被引向到一个第三方,第三方获取 gradient,最后reconstruct我们就用data,通过这样的办法可以去做窃听。题目也是在去年NIPS得到最佳paper的一个题目,是MIT韩松教授做的。

应付它的方法,也是联邦学习的一个拿手好戏。比方说假设一个player,半诚实(Honest-but-curious)就是好奇,但本身不坏。还有人是恶意的,想搞破坏,想得到用户隐私,然后获利。对于不同的假设,可以设计不同的联邦学习算法和多方计算算法来防止下毒,还可以做零知识(Zero knowledge)和一些知识(Some knowledge)分类。服务器端也可以区分是不是恶意中心、恶意的数据节点和非恶意的数据节点。

问:金融场景有没有遇到过坏人?

在联邦学习里面,如果有同学现在在找题目,说我能不能在联邦学习找一个硕士题目或者找一个PHD的topic?完全有的,但是要聚焦,因为联邦学习涉及的方面实在是太多了,所以如果你要找一个题目,你往往会找一个子题目,比方说如何能够做到安全合规,如何能够设计一种机制防御攻击,提高算法效率。

比方说我们科大的陈凯老师,他带领的团队就在设计全世界领先的算法,网络效率可以通过网络的设计,包括网络protocol、芯片的设计来提高。还有王威老师、宋阳秋老师,都在设计算法,他们的算法都是非常精确的。

问:你讲模型我还是云里雾里的,模型到底是做什么的?

打个比方,现在每个人都用手机,有时候也看抖音,一看就很长时间过去了。为什么抖音能做到这一点?精准的推荐和个性化,利用数据来做推荐系统。

如图所示,比方说我们有很多的手机,每个手机上都有数据。抖音的做法,是把每个手机上的数据上传到云端,再利用所聚集的大数据训练模型,再适配到每一个人的个人数据上,就变成个性化推荐模型,再给推到手机端,就是循环往复这样一个过程。

这过程有个缺点,就是它侵犯了用户隐私,每个人的数据,云端就会看到。怎么防止?这里我就要说联邦学习+推荐系统,就是联邦推荐,这个也是我们第一次提出federated recommendation的一个算法。

它的算法宗旨,就是对每一个手机上的 transaction,用户以前看过的视频或者书,进行矩阵分解,得到用户空间和产品空间。如果你们喜欢数学,你们可能知道本征值、本征向量,线性代数里面的概念,实际上就是求这个值,但基于本地数据求值是非常不准的。所以通过联邦学习,能够让他们既能够利用所有的数据来求 ,同时不把本地的数据暴露给其他任何人。这就是联邦推荐的概念,可以在toB的形势下实现,就是纵向联邦。 

纵向联邦现在应用在哪里呢?又有一个新的名词,叫做联邦广告。

现在互联网的一大经济支柱就是广告,在现有的广告架构下,广告是不可避免地侵犯用户隐私。联邦广告可以让广告方、投放的媒体方、用户方各自保留自己的数据,同时提高投放准确率。

问:联邦学习训练后的模型是一个公共的模型,而各个客户端的数据经常是non-iid的,怎么办?

联邦学习训练后的模型,是一个公共的模型,而各个客户端的数据经常是分布都不一样,比方说我们有一个手机是女生用的,她看的短视频和一个男生用的手机的看的短视频,可能是完全不一样的短视频,因此我们拿他们两个的数据粗暴地做数据联邦,这个效果是肯定不好的,这是机器学习的一个常识。

怎么办?我们还有元学习,和多任务学习、迁移学习是可以解决non-iid问题的。

又要给大家提一个新名词,叫做联邦迁移学习,在之前每一端都先要做一个联邦迁移学习,找到自己的一个子空间,在这个数据子空间的比对下,大家可以认识到自己找到的子空间,各自找到子空间是属于同分布的就可以。那么找到子空间,可以用联邦学习来实现。这个领域论文非常的少,所以如果有同学在找题目,我鼓励大家在这个方面发力,一定是明年各个顶会的文章,best paper一定是属于你们的。

联邦学习应用案例

  • 小微企业信贷风控

假设我们要给一些小微企业贷款,又不知道小微企业的情况,第一个可以问询的是央行征信,比方说他过去在某个银行贷过款,信用度如何,但这种数据,它的样本往往是非常少的,所以只是去找央行的数据远远不够。

我们希望用到的数据是多方面的,比如工商、税务、舆情,还有各种资产的数据。但是这些数据拥有方,往往都是政府的不同部门、不同的企业。有专门的公司去帮助这些小微企业建立电子化的发票,有从专门的业务角度观察,我们只有用联邦学习才能说服他们来参与,否则他们担心核心资产会被泄露。

这里的例子,是我们在企业贷款里面基于联邦学习的风险控制模型。某个银行和某个发票企业最后形成联邦,大为提升准确率,降低坏账率。

  • 保险联邦建模

保险其实就是风险,风险和数据是分不开的,数据越多,风险越低,因此保险公司在某些程度上也想合作,因为不同的保险公司有不同的数据。有的保险公司是专门为保险公司保险的,叫做再保险公司,比方说瑞士再保险公司,是世界上最大的再保险公司,有100多年的历史,这些公司在过去因为数据割裂,没有办法合作的。现在就在用联邦学习,而且取得了非常好的效果。

  • 计算机视觉

比方说我们有不同的摄像头,每个摄像头都覆盖一个区域,这个地方的数据是公司的核心资产,不愿意和别的公司去share,但是他又希望利用到别的公司的数据,来增高自己的准确度,这个时候就可以用到联邦学习,我们叫视觉联邦,已经落地实施。每天深圳的建筑工地用来探测危险,影响施工的一些现象,比方说明火抽烟和不戴安全帽的现象。

另外,语音识别、IOT在仓储管理的场景,联邦学习也有所应用。不同的仓库可以形成线性联邦,监测地方仓储状况,这些状况就为风控模型和为物流业的决策提供了保障。

  • 医学应用

我们最近和腾讯的天眼实验室合作,成功构建了一个“脑卒中发病风险预测模型”,通过使用来自就诊记录数量TOP5的医院真实就诊数据验证,联邦学习模型和集中训练模型表现几乎一致,在脑卒中预测模型中的准确率达到80%,仅比集中训练模型准确率降低1%。

同时,联邦学习技术显著提升了不同医院的独立模型效果,特别是,对于两家脑卒中确诊病例数量较少的医院而言,联邦学习分别提升其准确率10%和20%以上。

联邦学习不仅仅是一个算法,而是一个操作系统。因为有激励机制在里面,可以把不同的行业给凝聚在一起,使得大家有动力,不断用联邦学习来做联盟。除了刚才提到的场景,还有银行和监管联合跨境反洗钱,互联网+保险,互联网+银行风控,互联网+零售,这些问题都可以通过联邦学习更好解决。

我们建立生态,建立平台,建立标准。也希望这个不仅仅是一个算法,而是新的paradise。我有的时候跟媒体讲,AlphaGo代表了AI 1.0,它就是说在一个地方有数据,在一个地方有算法,在一个地方可以有一个很好的模型,就是AlphaGo。

现在我们进入了AI 2.0,我们在不同的地方有数据、算法、业务,我们还可以做AI,这个是谷歌所没有做到的,中国现在在这个方向是领头的。

怎么做到这一点?首先要建立标准。我们特别自豪的一点是,世界上第一个联邦学习的产业联盟,建立的IEEE的标准,已经到了最后一步,马上就要正式发布了,敬请关注。同时在国内,有联邦学习的团体标准,这个也是微众银行领衔发布。我们有一个联邦学习的开源平台,就在Linux Foundation上,是金牌的开源平台,短短两个月就收集到贡献者打的上千星,到现在已经2000以上。在短时间得到这样的认可,也是非常难得。

教育方面,我们先后出版了英文和中文版,是联邦学习第一本书。另外还在做一个专题网页,提供教学PPT、习题、考试题,为师生提供方便,希望大家都能够很快了解这个领域,并且参与到里面来。

欲收看本系列课程回放,请扫描下方海报二维码进入专题页面,或点击https://www.yanxishe.com/course?from=indexmap观看。

雷锋网雷锋网雷锋网

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /fB4q2R6BgELoT95G.html#comments Sun, 14 Jun 2020 09:44:00 +0800
品钛执行副总裁李惠科:AI金融产品,不标准、不成活 //www.drvow.com/category/DataSecurity /KMC4aIYuSVkIlcyY.html 伟大的产品,不一定以「标准化」开始,但一定以「标准化」结束。

如果没有足够标准化的产品、没有十倍领先于行业的商业价值,面对磨刀霍霍的金融机构,面对虎视眈眈的互联网企业,创业公司没有未来。

什么样的AI产品,才能让「金融科技企业」活下来?

为此,雷锋网《AI金融评论》策划了「AI能否解决金融刚需问题」系列选题,借同一个话题,对不同背景的受访者、产品和客群各异的企业们进行采访,期望在不同的商业和技术认知下捕捉观点碰撞的火花。

在前两篇采访中,我们采访了冰鉴科技CEO顾凌云、慧安金科CEO黄铃

本系列的第三篇文章,由品钛执行副总裁李惠科讲述他眼中AI和金融之间的关系。

以下为李惠科的所感所想:

90年代,我第一次遇到AI

AI已经85岁了。

对于人类而言,85岁已是垂垂老矣;但对人工智能来说,还只是个含苞待放的孩子。

90年代,我上大学,恰好赶上中国人工智能研究起步阶段。

如今在AI领域,应用十分广泛的场景有:人脸识别、自动驾驶等。但我们那会儿,比较火的是模式识别,雷达信号检测、医疗信号检测。

当时,有医疗机构希望把AI应用在核磁共振等「医疗信号检测」项目中,我作为人工智能相关专业的学生,也参与了那一次POC测试。

事实证明,AI在上个世纪90年代,便展示出它十分惊人的效果。

通过训练人工神经网络、识别图像底层结构,人工智能很完美地把缺少的视图补充完整,并将扫描速度提高了整整10倍。

这次POC测试,让我第一次感受到AI的魅力,也见识到了AI强大的跨界能力。

在之后的几十年里,我也不断体会AI在跨界过程中的成功与失败,逐渐形成了一个感悟:“做一个AI产品,一定要结合它具体的业务场景。” 

金融是一个数字化程度很高的行业,在财富管理、大数据风控等领域,因为能积累海量数据,使得AI的使用效果较好。

当然,判断AI的实际应用效果是好是坏,通常还需要一系列的量化指标。

在财富管理领域,就比较注重「投资回报率」、「最大回撤率」。此外,还须考虑它的稳定性和开放性。

开放性,指的是AI和其他产品集成的能力;稳定性,意思是AI产品是否足够安全、可用、易于扩展。

具体来讲,我们会评估这个产品的流程开发能力、API接口、可编程用户界面、控制系统、安全、审计、维护等综合技术能力。

当然,并不是所有和人工智能相关的应用,都已经有量化的指标;也不是所有场景,人工智能都可以无限适用。

糟糕的体验

AI被过于神话了。

严肃的讲,在试用一些合作伙伴演示的AI产品时,我的体验很糟糕。

我们经常会遇到这样一个算法,在理论层面,它的准确率非常高,但是应用案例却很少。

比如语音识别,的确,一些大厂的AI语音产品做的越来越好。但是如果你和这些AI日常对话,它仍会错误百出,甚至让你捧腹大笑。

这样的例子不在少数,全球最大的消费级机器人制造商Anki破产;智能驾驶汽车撞人;智能语音助手大半夜突然放音乐等。

目前已经成功的AI相关业务,一般是在特定领域可以抽象化、标准化的。而个性化、定制化程度高的AI业务,则需要理论化和工程化结合的更敏捷的解决办法。信贷风控就是一个很典型的例子。

在信贷风控场景下,中小企业的日常运作常常不规范,没有统一的标准和形式。数据的来源不同且十分杂乱,必须要进行数据结构化处理以及数据清洗,才能让AI的应用达到比较好的效果。而且要不断积累数据,反复训练,逐步提高。而同样是信贷风控领域,电信场景下因为海量高质量数据的存在,AI的发挥也就更如鱼得水。

找到合适的业务场景,永远应该排在第一位。选择技术,远远没有选择场景、解决痛点重要。 

企业家不空谈技术和算法,应该从业务出发,讨论技术的可行性,培养优秀的算法科学家,积累足够多的数据,反复实验验证,一定不能急于求成。 

从策略上讲,我们会快速迭代、不断试错、逐步完善产品。

人工智能不用刻意神话,现实中我们遇到的大部分问题,其实一个简单的决策树就可以解决。

一个简单的决策数和统计模型就完全可以处理低维度参数或符合特定规律的数据。 

然而,在今天的信贷风控中,我们往往要引入复杂的参数和动态的变量,尤其是现在互联网平台下,那些未被央行征信覆盖的客群,我们需要通过搜集客户在日常工作、生活中产生的海量行为数据,提炼客户画像。

当数据集越来越庞大,我们一般会选择机器学习来处理,如果这时还用单一的决策树或统计模型是显然不合时宜的。

数据想要变废为宝,需要多种方式“出力”;一个行业的发展,更是如此。

赶上时代浪潮

一个科技细分行业想要发展,离不开这个链条中所有上下游公司、以及监管部门的共同努力。

比如5G行业里规则的制定,监管在具体定调之前的调研不仅有本国的公司,还有全球各国企业的共同参与。

这些参与其中的公司,还分下游的运营商、上游的设备商、中间的测试厂商等。

这些厂商和各国政府机构、国际组织一起制定行业规则,每一个服务商在其中都会发挥自己的作用。

金融科技行业的发展也是如此,下游有TO C厂商、上游有数据提供商、中间还有平台解决方案提供商。

每个层级的厂商都会提出自己在这个行业里的见解和看法,同时政府和监管部门也会提出自己的看法,大家一起推动行业的发展。

政府和监管部门跟业界之间的讨论是非常频繁的,一些高级别的监管官员会直接在群里,提各种各样的问题和业内的公司管理者们一起进行思考。

金融科技行业的未来发展不单单依赖于监管机构、企业的群策群力,更关键的是它契合了人们对未来金融产品的期待。

新一代的年轻人在数字化变革当中长大,他们长大后对金融产品的需求不是传统银行业务可以满足的。

AI通过算法向用户主动推荐产品、判断用户的兴趣,可以更好的了解客户、了解市场、保持和客户的连接。

做一个产品或者给客户提供一个服务,不在于追求算法多么复杂、多么炫酷。

我们以前设计的IT产品,大多是给技术人员用。

而近10年以来,所有产品设计的导向是给用户使用。当企业做的产品客户不会用,不是客户不好,是产品没做好。

随着互联网的蓬勃发展,这20年来数据呈现出的爆发式增长,使得人工智能在金融领域创新成为可能,我们赶上了好时候。

而这只是刚刚开始,现在进入这个行业的年轻人创业者和优秀人才,仍有着广阔天地,大有作为。 

雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /KMC4aIYuSVkIlcyY.html#comments Fri, 12 Jun 2020 10:16:00 +0800
慧安金科CEO黄铃:0.02秒拦截每笔风险交易背后的「AI方法论」 //www.drvow.com/category/DataSecurity /yRPr2PPYBa7L58fj.html “落地时一地鸡毛。”

当前的人工智能,在金融领域的实地应用依然存在很多瓶颈。

但在不少人看来,如果没有AI,传统银行业或许在不久的将来,会像一个僵而不死的“巨兽”,虽然行动如故,但腐朽如影随形。

金融科技的出现,改变了这一现状。人们想知道,这些力量对金融而言,只是“流于表面”还是真有“洗髓伐骨”的功效?

为此,雷锋网《AI金融评论》策划了「AI能否解决金融刚需问题」系列选题,借同一个话题,对不同背景的受访者、产品和客群各异的企业们进行采访,期望在不同的商业和技术认知下捕捉观点碰撞的火花。

在首篇采访中,冰鉴科技CEO顾凌云分享了 AI金融产品是「鸡肋」还是「鸡腿」?》

本系列选题的第二篇文章,由慧安金科创始人/CEO黄铃讲述他眼中AI和金融之间的关系。

以下为黄铃的所感所想:

第一次POC,很紧张

第一次经历,总是最难忘。

在首次和大型股份制银行合作时,我们就遇到了颇为棘手的难题。

当时,这家银行希望将全部的海外交易数据进行风险评估。

我们需要对每一笔交易,做非常复杂的「特征提取」和「基于机器学习模型的风险评分」,并对高风险的交易进行预警和拦截。

而每笔交易留给我们处理的时间,只有0.02秒。

团队对整个流程进行了梳理,并进行了一系列测试。

首先,这笔交易是属于正常交易?还是银行卡盗刷?我们需要对交易的性质做出非常精准的判别。而不管是「特征提取」还是「模型评分」,都需要能够辨别交易是否属于欺诈。

于是,我们对大量的欺诈交易行为进行了分析学习,并将它在机器学习建模里体现出来。

当然,即使你做了很多交易行为的分析,算了几万个甚至几十万个特征指标,但是由于线上系统只有20毫秒,绝大部分指标都用不了。

所以我们又对大量的指标进行清理、组合和挑选,把它浓缩到几千甚至几百个指标,顺利的在0.02秒之内完成计算和评分。

为了同时满足准确率、覆盖率以及响应速度,我们从采集数据、发现欺诈行为、找到区分正常交易和欺诈交易的特征值到选择最具有代表性的特征,每一步都进行了大量的学习和分析。

当时,团队4~5人,整整经历了一个多月,才把整个流程和系统全部搭建完成。

这才最终使得我们赢得了这家银行的认可,中标了系统。

人工好,还是智能好?

早期的AI金融公司在投标时,客户时常会有这么一丝顾虑:人工经验好还是智能技术更好?

其实直到现在,这个顾虑在很多业务流程中仍旧存在。

其实人工和智能是互为补充的,具有完全不一样的属性。

人工,可以在自己已有经验基础上做非常复杂的推理,能够根据一些蛛丝马迹做复杂的关联和分析,挖掘出潜伏非常深、伪装特别像的风险 。

但是,人工也有几方面的问题。

第一,要成为一个非常有经验的专家,需要长时间的积累和沉淀。这样的人才非常稀少, 也很难培养。

第二,「人工」处理数据的“带宽”非常有限,一天只能处理几十个案件,发现很少的问题。

而对于机器智能来说,「人工」的劣势,恰恰是它的优势。它有足够的带宽处理海量的数据,还可以按照一些推理规则或者机器学习模型,帮助人们减少工作。

我们可以通过准确率、覆盖率这两个量化指标,对人工智能产出的效果进行全面评估。通过ROI来判断这个人工智能项目是否取得了良好的效果。

按照目前的发展来看,AI在人脸识别、文本识别以及我们在做的风控、合规和监管等场景,效果都非常好。

有些领域,AI的水平和能力甚至超过人类,比如风控合规监管,机器可以达到人类97%或者98%的水平。

但是相比人类,特别是非常资深的专家,AI的推理能力还是远远不够。

比如在智能风控领域,我们就遇到了许多复杂、具有挑战性的问题。

首先,在信贷风控中,存在着大量的欺诈分子,他们会使用多种变化的行为,来隐蔽身份,即使有经验的风控专家都不一定辨别出。

其次,我们需要用全面、多维度的角度分析,当一个人申请信贷的时候,还款能力如何?

如何使用数据、对数据特征分析以及如何把特征组合起来,产生一个准确高效的信贷风控模型,其实是非常有挑战性的,十分需要有经验的AI人才。

AI不能解决的刚需问题

如何补齐AI的短板?这也是我们的重点研究方向。

如果人们对目标的定义不明确,会直接影响AI的实际使用效果。

如果是没有以前的历史标签数据,或者标签里有很多错误,AI要自主的去做学习挖掘,其实是非常困难的事情。  

在这种缺乏足够先验知识的情况下,开发无监督和半监督的机器学习算法,是一种很好的解决方法。

如果我们可以针对一些特定的场景,比如说在风控合规领域,用「无监督学习」去分析大部分正常人的行为,然后用异常检测的方式,区分风险分子和正常人。

但是,在某些特定的场景下,AI金融产品确实满足不了客户的需求。

比如在金融产品智能营销领域,即使模型和推荐模型做的效果再好,也是很难通过少量的产品满足消费级用户的全部需要。

而在面对To B客户时,如何教育客户,让他们选择符合自己需求的产品,并为客户提供咨询服务是极为重要的。

首先,你得懂对方的业务,懂对方业务里的碰到的困难、问题和挑战。

第二,与客户沟通交流时,你需要用业务的语言,而不是用算法理论的语言。用业务的语言,给客户讲述我们是如何通过这些AI产品帮助客户解决痛点问题的。

我对行业的一些认识

在AI金融领域从业多年,我对金融业务和金融产品的理解在不断加深。

金融行业有非常多的产品,比如贷款产品,包括对公业务里保理、贴现、票据等。

以前,我们技术人员可能不理解它们背后的原理。但是,当你深入了解这些产品后,你会发现,它们的设计非常巧妙, 会让你耳目一新,学到很多东西。

不光是AI金融行业,AI在任何一个行业的落地,不只是一个技术问题,更是一个业务问题。

如果你想让AI的落地,真正通过技术解决客户日常业务中碰到的问题,你必须去了解客户的业务是如何运转的,它存在的挑战和风险是什么。

第二,AI实际上在不断的预测未来。

它不像我们过去做个模型,只要采集好静态数据预测就能很准确。

实际生活中数据是不断变化的,AI在这个动态的世界里需要不断的自我学习,才能持续准确的预测未来。

想要将未来预测的准确、稳定还可靠,是一件非常有挑战的事情。希望大家能做好准备,沉下心来脚踏实地,真正做一些能够稳定、持续预测未来目标的AI系统。 (雷锋网)雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /yRPr2PPYBa7L58fj.html#comments Tue, 09 Jun 2020 10:17:00 +0800
富数科技安全计算首席专家卞阳:隐私计算江湖与联邦学习的「上帝视角」 //www.drvow.com/category/DataSecurity /pZV8yMiwbMGOv61P.html 近日,富数科技安全计算首席专家卞阳做客雷锋网公开课,以《隐私计算重构边界,联邦学习重新定义大数据》为题进行分享。

卞阳在课程中用武林各大门派做例子,详细分析了联邦学习和隐私计算安全部分的主要算法原理,以及联邦学习如何实现跨越数据要素边界,在供应链金融、联合营销、金融机构存客促活等具体场景中落地应用。

关注微信公众号  AI金融评论 ,在公众号聊天框回复“听课”,进群可收看本节课程视频回放。

以下为卞阳课程全场回顾和互动问答精选,雷锋网AI金融评论做了不影响原意的编辑:

感谢大家能在周五参加公开课。我叫卞阳,来自富数科技。

数据有多重要?早期的语音识别有这样一个情况:男声识别率很高,但女声识别率很低——因为(用于训练的)素材语料太少。

如果两家公司对比,算法水平高和数据量很多,哪家的人工智能会做得更好?一般是数据更多的那家,因为它可以不断优化算法。

今天主要和大家交流隐私计算、联邦学习,以及它们与数据、大数据的关系。 

隐私计算与联邦学习关系背后:AI与密码学的悖论?

现在人工智能处处可见,有观点说人工智能会定义业务边界,其实安全也有相同的特点。数字化时代如果没有安全,业务也很难展开。

安全和人工智能之间是何关系?未来若无智能,安全难以实现;若无安全可言,人工智能亦无用武之地。

从信息论的角度来看,人工智能和密码学颇为有趣,二者实为一对悖论。

人工智能是数据经过加工,提取其中信息,训练后变成知识。这是熵减的过程:熵越少,可用性就越高。

密码学正好相反:隐藏有用的信息,编码、打乱,变成另外一个空间的数据。这是信息熵增的过程,可用性越来越低。

但现在既想做安全,又想得到更强大的AI,得到更多的知识,如何是好?

如下图所示,原始数据处理后,变为脱敏数据,信息量减少。但这并不足够,还需要对中间数据进行加密——(这些步骤)都是隐私计算范围。

但这并没有结束,还需从中提取有价值的信息,引入联邦学习,提取更多知识。

以前联邦学习、人工智能和安全颇有些井水不犯河水的意思,互相关系不大。

2016年,欧盟制定GDPR,于2018年正式生效。而谷歌正是在2016年提出的联邦学习——这时,人工智能跟密码学的交集变多。

而当联邦学习逐渐成为热点,跟隐私计算的重合度就越来越高。

下一阶段,在完全数字化时代,(人工智能与安全)二者很可能越来越深度融合。比如信通院制定了多方安全计算的数据流通产品标准,听上去是安全相关,但也包含了机器学习。

联邦学习的框架,不可避免会与安全相关。信通院也在制定联邦学习的标准,当中也有不少关于安全的内容,于是变成了你中有我、我中有你的状态。

“联邦学习里的安全怎么做?”这是必然要讨论的问题。之前很多专家已分享联邦学习的算法原理,安全方面相对讲得不多,我们这次会侧重隐私计算方面来谈。

若以江湖门派类比,安全多方计算(MPC)是少林派:历史悠久,功力深厚,最早可以追溯到上世纪80年代,有秘密共享、传输混淆电路等一些非常强大的独门武器。

武当派可以对应到同态加密。武当派的特点是简洁、优雅,同态加密也类似:表达式清晰明了,实现起来却很复杂。真正要做到全同态其实很难。

后起之秀华山派,可信计算环境(TEE)。当然,TEE跟联邦学习关联度较低,但也不排除某些联邦学习解决方案能与TEE有所结合。

除此之外,还有像盲签名、隐私信息检索、零知识证明等这些相对更小的密码学协议分支,同样非常有用,好比泰山派峨眉派,它们共同组成了丰富多彩的隐私计算江湖。

「少林派」和它的三大「独门武器」

  • 秘密共享安全多方计算

共享这个词有点让人误解,它并不是把各自的秘密数据真的共享了,而是各自的秘密还是可以得到安全的保护,但可以一起去计算得到结果,这个结果是可以共享的。

秘密共享的安全协议里,有数据的提供方,另外还有计算方,当然计算方跟提供方可以合二为一。

对比一下秘密共享跟同态加密的差别:同态加密是由一方提供密钥,计算是在一个环境一方进行的。秘密共享叫安全多方,所以是在多方进行计算,有这样一个特点。

比如说提供方1有个数,以加法为例,提供方把数切片,有几个计算方就切成几片。切完之后有一片留在自己手上,不发给别人,其他片分发。实际怎么切片,也有很多方法,不是只有一个算法。

现在先理解切成多片,每一方也会拿到其他方的切片,拿到以后就在本地做计算,比如说x1+y1+z1,这就是一个加法,加起来形成新的等式。c1c2c3就属于中间结果,最后要求和,中间结果已经把各方的秘密混在一起了。

联邦学习的计算表达式里,往往有多方数据,听起来很复杂,但通过这个方式,实际上没有那么复杂。

当然,秘密共享有安全条件,即安全门限。n-1的安全性,但(两方的情况下)n-1=1,所以两方加法不存在安全模型,必须要多方。

但在联邦学习当中,很可能建模只有两方,这是否会出现一方推算另一方的情况?

从信息论熵增熵减的理论来看,(为了避免这种情况)表达式不能够太简单。好在机器学习计算往往是矩阵集合计算,这样复杂的表达式计算完会变成一个值,不可能由此反推原始数据。所以越复杂的计算,安全性越高。

光有加法不够,还需要有乘法,但乘法复杂度比加法更高,原理类似。

安全多方计算有两个优点:一是过程更加对等,不需要第三方拿了一个公钥或私钥去生成,其他方都依赖它进行加密解密。二是结果可以按照协议,分发给相对应的参与方。 

同态加密(的原理是),谁有密钥,肯定需要他去解密,安全性原理有所不同。

有些场合很难找到可信第三方,这时正是安全多方计算的发挥空间。除了乘法和加法,还有其他更复杂的计算,比如机器学习里面有 log、指数等,这些运算都可以用乘法和加法来构造。不管运算多复杂,理论上都可以用多方安全技术求解。

  • 茫然传输

第二个是密码学里非常重要的茫然传输,也叫不经意传输(Oblivious Transfer,OT),是联邦学习做安全对齐的必备。

比如Alice手上有两个信息,Bob想要其中一个,但是不希望Alice知道他拿了哪一个。

密码学可以把协议构造更复杂些,比如n个信息里取其一,或取m个,取出数量不能超出约定。既要有正确性,还要有安全性,这就是OT协议。

  • 混淆电路

安全多方计算里面还有个“武器”混淆电路,由图灵奖获得者姚期智老师发明。

原理是:假如所有的输入都转成0和1,进行比特的「与非或」门电路计算,最后得到一个结果。

但是Alice和Bob的输入,都不希望另外一方知道,通过生成门电路处理,最后拿到的一个结果无法反推双方的输入。

如何在两方间构造电路?如果是在对方那里运行,不可避免要将输入(内容)给到对方,或者从对方拿(结果)。这时,不经意传输就派上用场了,对方无从得知你拿走了哪一个,这就隐藏掉自己的一个信息。

所以,多方安全计算的混淆电路和茫然传输之间有关系,这些都是比较底层的理论。安全协议密码学的这些内容,构成了联邦学习的安全基础。

联邦学习如何重新定义大数据?

大数据这个词,从提出到现在已经很多年。早期,大家更多采用内部数据,随后逐渐发现外部数据很有价值,就希望获得尽可能多的外部数据。但在国内外监管法律法规下,获取外部数据存在合规要求,大数据(的发展)也就受限。

数据如今已是生产要素。联邦学习怎样让AI跨越数据要素边界?这就是前文所述的“武器”如何运用。

  • 安全对齐

在做机器学习之前,往往需要完成对齐的动作。如果不知道两边的样本,也不清楚如何使用,学习自然无法进行。

举例:Alice和Bob各有一个样本集,两边怎么安全对齐ID?首先要处理自己样本里的ID,这是一个加密的过程。我们可以这样理解:

Step 1:把自己信息和一张复写纸放到信封里,给到 Bob。

Step 2:Bob在信封上签名盖章,再返回给Alice。

Step 3:Alice拿到之后打开信封,去掉掩码,但因为有复写纸,所以Bob的签名也印到了Alice给的信息上。

Step 4:Bob把自己手上每个ID也做签名。

因为只有他自己有私钥,所以Alice无法生成这些ID。也正因为ID经过哈希后用私钥签名,Alice即使拿到信息,也无法判断对应关系,只有她自己去掉了掩码就事先拿到Bob签名的这批ID,才能正好匹配上了。

如果Alice手上没有ID,肯定匹配不上。如果她有一个ID,Bob那边没有,Bob自然也无法生成一个带了自己签名的信息。

但这并不是公平对等的方案,因为Alice获得了一定的信息不对称优势:为什么是她先知道Bob哪些ID跟她有对齐?

好在密码学还有很多种武器,其中比特承诺就是更公平的一种方案,可以保证参与双方通过一种公平的方式来交换信息,参与者相互间要么都能得到对方的信息,要么都得不到。

安全对齐真的安全吗?用户哪些ID的数据参与了后面的机器学习,在一些场景中也是敏感的,能隐藏ID吗?这就变成更复杂的问题了。

所以样本对齐有三个层次的安全:第一个,比较简单的盲签名的安全对齐,但不太公平。第二种是安全公平的交换,第三种要隐藏被匹配到模型中的ID。

对于第三种,密码学也有办法解答。行业中有人提出差分隐私方案,复杂度很高,噪音的加入也会导致模型效果有损失。我们也有另外的一些安全手段,有兴趣大家可以进一步交流。

  • 安全计算

不可避免地,做联邦学习一定要有安全计算。

我们知道联邦学习有不同的流派,纵向、横向、迁移。横向联邦学习的实现相对简单,因为在本地就可以训练,模型再到云端汇总。 

但纵向就比较复杂,一边是y变量,一边是x变量。一个表达式里既有x本方的变量,又有对方的变量,怎么算出结果?

听上去不可思议,好在有前面提到的多方安全计算,即使表达式里有n方数据,也可以从最简单的加法乘法开始构造。只要实现了这两个方法,就能将表达式求值,还能约定表达式结果值如何分配。

用同态加密做联邦学习,相对简单,但限制也更多一些,会需要第三方协助。但在实际商业场景中往往很难找到第三方。此时,多方安全计算就有它的用武之地。MPC(多方安全计算)的多方安全,名词本身和“联邦”更对应,参与方的关系也更加对等,可以在无可信第三方的情形下进行计算,完成建模学习。

  • 联邦特征工程

联邦学习如果没有好的数据,训练效果很难优秀。为保证数据质量,训练前需要进行联邦特征工程。

从名词上可以看出,无论是计算IV值、计算共线性,还是像importance这样用于筛选变量的值,也是用联邦方式来产生的。

在无法获取对方数据的情况下,如何操作执行联邦特征工程?我们通过可视化交互界面,共同做安全计算,能计算出特征IV值,还可以选择多种分箱方式。

有了这个特征工程以后,也可以判断对方的数据质量,发现那些对接下来的建模有用的特征字段。

正如前文所述,联邦学习需要一个发起方,不可能两边都操作或都不操作,总归有一方在做具体主要的动作,当然另外一方可以去做审核和批准动作,有权限管控。

进行联邦学习不光需要底层算法,同时也需要一个操作控制友好的界面。

另外还有探索性分析,比如说是否有异常值、缺失值,可以预先设定好规则,自动过滤日常值,更好控制训练质量。

  • 联邦机器学习

联邦学习最核心的,肯定是机器学习算法。下图是机器学习已完成任务示意图。

联邦学习过程中,网络上两方或多方共同计算,如果了解不到计算状态,我们很难给出适当判断。联邦学习的性能比单机本地要慢很多,训练几十分钟甚至更长时间都非常正常。在参与方之间需要将训练过程可视化。

不同的场景下,算法变化会很多。为实际适应各种场景,需要有尽可能丰富的联邦学习算法。

当企业发现自己数据有限,要和对方外部合作。数据获取不到,互相不信任,或者有合规上的隐患。这时通过联邦学习,数据会变得更易用。拿不到数据本身,但能能拿到数据的能力。

企业也希望使用过程尽可能简单方便,比如哪些数据可用、授权权限管理;希望可以发现、搜索有价值的资源,在合作的双方或多方相互能发现,有点像微信那样加好友才能连上对方、验证通过。

之后怎么合作?有一方创建合作的项目,对方有什么样的数据资源,是y变量还是x变量,横向还是纵向,都可以可视化创建合作项目,在合作项目中约定,之后就可以进行安全数据处理。虚拟融合就是安全对齐的过程,形成看上去是虚拟的样本集,实际上还是分布的。然后选一个联邦学习算法,在虚拟融合集上进行训练。

联邦学习结束后,它还是一个分布的模型,参与方各有各的子模型,所以联邦模型的使用,也要用到安全多方计算。

各方有自己的数据和子模型,在表达式或数的模型里,它的服务计算结构也是不一样的。所以说我们还要支持把模型部署为服务,变成像API那样可以对外提供,这样才形成一个闭环。

通过联邦学习,本来外部拿不到的数据,可以因此跨越边界,获得大数据能力,成为真正的大数据。

联邦学习在金融场景的「降维打击」

如果能够拿到各种各样的维度,在商业竞争中肯定有更加明显的优势。联邦学习,能够让企业获得了更强大的能力,就像上帝视角那样,得到高维打低维的优势。

从具体案例来看,富数科技在2017年就立项做多方安全计算,那也是网络安全法生效的一年。

我们当时就觉得,数据安全非常重要,也需要有一种更好的方式来使用,所以发起了开源项目Unitedata,有多家合作单位联合研究。

2018年,我们的UD联盟系统上线,已有部分落地应用的案例执行;2019年,信通院多方安全计算的相关标准出台后,我们也参与其中。富数安全计算联邦学习平台阿凡达(Avatar)也是最早通过信通院产品认证的。

为什么叫阿凡达?众所周知,这部电影是说地球人通过“阿凡达”这个化身进入到外星世界,本体没有转移。这个外星空间里,纳美人的头发就是一种神经元,由此连到灵魂树,互相达成共识。

这点十分有趣,我们觉得这跟联邦学习异曲同工:本体不转移,以及相互连接达成更广泛共识。所以阿凡达的意义是数字的世界里相互连接,形成更开放生态。

富数Avatar平台支持私有化部署,其中有两个核心模块:底层联邦学习算法模块,加密计算模块。正如同计算机不光有 CPU,还需要有GPU一样,有两个核心共同工作才能够实现联邦学习。

使用阿凡达的两家机构,他们可自身直接达成连接,不经过包括富数在内的任何第三方,就可以完成各种联邦学习项目。

  • 案例一:供应链金融

供应链金融里的应收账款,银行需要税务开票数据,但不容易拿到。

在一些项目中,企业若无授权,外部很难拿到数据,即便拿到也只是单个小的数据。但只拿一条数据,没法完成联邦学习,得要几千、几万条税务的数据和银行的资金流水。

一边是银行资金交易信息,一边是经营信息来进行训练,两边维度不同,也没法汇集到一起,这在以前难度非常大。

让银行把数据放进安全沙箱是办法之一,但沙箱数据要出库有风险,这就导致:虽然我们希望公共服务数据能够对外赋能,实际操作中却遇到安全隐患。

通过联邦学习,比如银行方企业交易数据仍由本地安全保护,同时可以连接到公共服务数据的开放平台。数据资源在开放平台上陈列可供选择,审核后运行算法,看最终效果。

这样一来,当小微企业想要去申请银行贷款,银行就有更适合的模型来判断。

有些企业可能其实很大风险,经营情况不太稳定,由于银行可以拿到更丰富的数据,比如从用电数据判断企业经营趋势,在风控模型上做得更好,预防潜在风险。贷前、贷中管理和实时监测,也很需要多方数据来训练模型。

上文提到,模型部署成服务,可以做到明细的数据不需要传到银行,用这个模型即可计算出结果。这对企业来说,授权的范围可以进一步缩小。不管是公共服务部门还是大数据机构,对于掌握数据方而言,数据安全性也更高,避免了数据在使用的过程中被留存,或者面临更大风险。

  • 案例二:联合营销

品牌商想和合作方联合营销,必然要对用户做一些判断:哪些用户适合什么类型的产品?但些信息是汽车厂商自己掌握,大数据平台很难判断。

之前需要汽车厂商把CRM之类的信息,在大数据能力开放平台里建模,即驻场式建模。但对品牌商来说,数据放出去也存在隐患。

通过阿凡达联邦学习,可以利用大数据平台更大维度的数据——实际使用中可能有上千维度,联合建模,再对用户进行分层分群,不同车型能更好匹配潜在用户,活动转化率和最后效果得到巨大提升。

  • 案例三:金融机构存客促活

每家机构都会有大量睡眠客户,非常希望激活,但它本身是睡眠客户,很难得到更丰富的信息去判断。用外部标签判断客户,相当于把自己的客户信息泄露出去了。其次,如果不能双方建模,匹配度也不高。

存量客户对外进行画像匹配时,也可以通过安全方式去查询,这跟前面讲的盲签名非常像。然后建模,非常典型的纵向联邦学习模型,之后可以更好判断,把客户分组,不同组对应不同营销策略。

在这个过程中,金融机构并没有拿到存量客户更多的信息,消费信息、上网行为拿不到,非常合规,但已经知道了客户适合的产品,提升了金融竞争优势。我们在实操中发现,跟专家模型相比,它的转化率可以提高100%以上。

联邦学习直面挑战和机遇

  • 安全与合规

用了联邦学习是否就一定安全合规?联邦学习降低了数据泄露的风险,同时在具体使用中依然需要遵循数据合规的法律要求。安全对齐在某些解决方案或者情况下也还是会存在一定隐患,我们提供了更加公平的、尤其对甲方更加安全的对齐方式,合规性也更好。梯度泄露、样本投毒等其他安全挑战,需要有更好的解决方案,毕竟联邦学习也在不断成熟和发展之中。

  • 性能和效率

对联邦学习熟悉的朋友都知道,联邦学习的计算量非常大。以往在本地非常快,不用加密也不用通信,因此(采用联邦学习后)性能上面往往有两个数量级的降低。我们也做了不少优化和尝试,在性能上面还是取得了一些进展。

  • 场景适用性

场景很多变,需要不同算法,也不光局限在机器学习。安全查询就是非常强的需求。有一些情形还没上升到学习的程度,但也要分析得到有用的知识,用多方安全计算可以解决。

在阿凡达的解决方案里,从简单的加密查询到多方计算和统计,再到不同的机器学习算法,还有神经网络、深度学习等。所以在场景适用性上面,我们也已经取得一些成绩。

  • 互联互通

它是多方的应用,两个解决方案之间若无统一标准,联邦学习要进行下去肯定很难。

互动问答精选

问:哪些金融细分领域更适合联邦学习?,

卞阳:细分领域非常多,比如保险、反欺诈的应用场景,都非常典型。金融非常依赖数据,只要这个场景需要用到外部数据,联邦学习就特别适合。当然有些场景是不是一定要用机器学习?像刚才提到的供应链,其实双方在进入到机器学习之前,还要做变量的处理。双方都有变量,还想衍生出新的变量,怎么办?这种情况用多方安全计算去衍生新变量,这个变量不反映用户敏感信息,把变量构造出来。

问:供应链金融场景案例里,联邦学习和区块链两种方案有什么区别和优势?

卞阳:联邦学习跟区块链肯定很大区别。区块链不讲学习,共同点都是分布式,在某些情况下也可以相互配合。富数也有区块链松耦合的方案,因为要多方联邦学习,可以在区块链进行智能合约,约定数据的规格、利益的归属,使这个机制更加公平。

问:自己做的隐私保护联邦深度学习模型,用同态加密太慢,差分隐私保护效果不好怎么办?

卞阳:的确,同态加密性能是一个问题,用MPC可以优化,因为同态加密相对来讲比较固定和简洁,但优化空间会小。

问:联邦学习的标准,哪个公司在牵头制定?

卞阳:这个名词首先最早提出是谷歌,微众银行应该是国内的一个旗手。所以IEEE会议的标准,微众银行是发起方,富数科技也是标准组的成员。

问:数据开放平台和模型服务是谁所有的?

卞阳:对数据源来讲,数据开放平台肯定是属于数据拥有者。模型如果是双方共建、训练产生的模型,最后生成的模型服务,是看模型调用过程,包括模型分布情况。除非参与建模的一方,把自己的模型授权给其他方。如果不授权,那就是共有。

问:休眠客户的激活,本质是对客户增加标签维度,然后再激活客户?

卞阳:如何激活,有不同的策略,这时要增加标签的维度。如果因为策略不好,推了他不需要的产品,等于是骚扰,反而对客户有坏影响,所以银行要激活休眠客户的时候也会非常谨慎。提高客户匹配度,也变得非常重要。

问:各部分标注数据质量有好有坏,联邦学习可以怎么做?

卞阳:进行训练之前,要对数据质量做联邦处理和分析,特征工程和探索性。当然这个过程也保护各方数据。统计性信息能不能给,也要经过授权,就可以在进入学习之前判断标注的数据质量。如果前面不容易判断,可以训练出模型再去测试,评估其中维度的数据有没有价值。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /pZV8yMiwbMGOv61P.html#comments Fri, 29 May 2020 13:10:00 +0800
冰鉴科技CEO顾凌云: AI金融产品是「鸡肋」还是「鸡腿」? //www.drvow.com/category/DataSecurity /OHydUv2YGZvxp6jk.html 金融科技这一行,存在两种「伪AI产品」。

一种是温室花朵,产品性能在实验室和小数据场景中表现优越,然而一旦放在枪弹雨林的复杂业务环境中,系统立马崩溃。好比碰到欧美球队的中国男篮。

二是画蛇添足式产品,很多IT问题,明明可以用简单、传统的技术方法就能解决,但企业非得让客户使用更贵、更复杂的产品。犹如高射炮打蚊子。

金融行业到底需要什么样的人工智能?

为此,雷锋网《AI金融评论》策划了「AI能否解决金融刚需问题」系列选题,借同一个话题,对不同背景的受访者、产品和客群各异的企业们进行采访,期望在不同的商业和技术认知下捕捉观点碰撞的火花。

本系列选题的第一篇文章,由冰鉴科技CEO顾凌云讲述他眼中AI和金融之间的关系。

以下为顾凌云的所感所想:

闻到血腥味儿的“鲨鱼”

90年代末,我在CMU计算机学院攻读博士,当时选择了AI作为研究方向。

其实在21世纪的第一个十年里,人工智能从商用角度来讲,始终是阳春白雪,难以落地。

直到深度学习爆发后,我才意识到,AI的时代要来了。

于是在2015年,我创办了AI金融风控公司——冰鉴科技。

「冰鉴」拥有上百家客户,其中也包括工商银行总行、中国银行总行等大客户,投标经历,不可谓不丰富。

当年有一家国有行,在网上公开招标,这一赛道里的金融科技公司,听到这条消息后,都像嗅到了血腥味的鲨鱼一样。

那次POC极其惨烈,一共来了29条“鲨鱼”。

这29家公司中不仅有做人工智能算法的、有做IT系统的,甚至,连咨询公司都来凑份热闹。

这么多公司只选出5家进入第二轮竞争,而「冰鉴」是这5家公司当中「技术标」第一名。

当然,这并不意味着我们最终赢得胜利,后面还有竞争更为激烈的「商务标」。

商场如战场,这5家公司中,有一家在圈内比较知名的公司砸了一个极低的价格。

但幸运的是,这家大型银行的商务标的百分比调的没有那么高,技术标的百分比也调的没那么低。

最后,我们争得了技术标和综合标的第一名,成功拿到了这一单。

这是我印象最深刻的一次POC经历。

当然,POC测试也好、投标经历也罢,要想成功竞标,拥有一支技术铁军,永远是第一位。

别把AI当成炫技的道具

管理一支卓越的技术队伍,最基本的原则就是,领导者能够清晰地定义问题,清楚地知道每一种AI方法的能力和边界。

我之前听一些专家谈到这么一个观点,如果能用上个世纪的传统方法很好地解决问题,那就别轻易用最新的算法。

其实在金融风控领域也同样如此,很多业务根本用不到先进的机器学习模型,一个简单的决策树或逻辑回归就能完成。

但很多AI公司犯了一个比较致命的错误,认为凡事都该用前沿和复杂的方法。最后把AI这个实用的工具,弄成了炫技的道具。

这非常可悲。

AI不是一个筐,任何东西都可以往里装。

从CMU读书到创办冰鉴科技,虽然一直都在和AI打交道,但我不认为AI就是放之四海而皆准的真理、不认为在任何场景下AI都可以应用地比现有的技术都要好。

张口闭口谈AI,却对以往的信贷风控方法嗤之以鼻,那它基本不是一家AI公司。

AI不是「排他型」的技术,不会一路走来像坦克碾压一样,把历史上所有的算法或方法都扔进垃圾桶。

在我们做数据处理时,数据的来源越是繁杂、越是难以用人工分析,AI所发挥的功能越强。

当每一个物理变量都非常清晰,我们为什么还一定要用AI画蛇添足?

但是,这并不意味着企业要减少科学家团队的招募力度。

根据我多年经验来看,搭建一个特别昂贵的机器学习团队,非常必要。

冰鉴85%以上的员工是技术人员,很多来自CMU、MIT、斯坦福等高校,他们无论是工程师还是产品经理,撸起袖子就可写代码、整整领子便能谈商务。

一家科技公司靠一个算法或者一个特别复杂的机器学习模型,就想长期领跑行业,几乎不可能。

科技在不断变迁,研究的方向也在不断改变,一家公司能在某一技术领域领先其他对手6~9个月,就已经非常了不起。

我认为,能够保证我们在最新的领域中始终保持自己独到的见解,甚至再进一步,引领行业新的研究方向,才是我们打造昂贵机器学习团队的最终目的。

“鸡肋”的人工智能

目前人工智能在金融行业中有着非常多的应用,企业也不断在拿锤子找钉子。

但很多时候,AI在一些看似热门的应用领域,其实际效果并不理想。

在计算机视觉当中,有个非常传统的研究领域叫OCR,说白了就是识别图片上的文字,然后提取出来,变成可编辑的文档。

这些数据电子化后,我们做模型就会非常方便。

听起来很简单,但实际操作却非常困难。

如果OCR扫描的是高考试卷,哪里放照片、哪里写姓名、哪里填数字,每一张试卷的格式都一样,那么OCR可以很快捷的识别。

但是如果每一张纸的内容不同,就很难处理了。

每一次上法庭前,律师都需要准备大量的材料。每份材料都有相对应的观点,需要一一分类。

这些事,全靠法律实习生或者实习律师,通过查阅浩如烟海的文献资料,归纳总结出来。

律师事务所就在想,这些法律材料比如公司的营业执照、组织机构代码、财务文件、合同等等都是打印出来的图片。

能否通过OCR将这些图片扫描,然后通过自然语言处理,找出相关内容,放到律师的观点下。这样律师上庭的时候, 不用自动归纳总结,用AI技术就可以轻松搜证。

这是一个听起来,目前技术可以解决的问题。但是真正操作起来,即使用最好的NLP技术,50%的正确率也达不到。换言之,和扔硬币没区别,我扔硬币的准确率还50%。

法务这样的一个场景,很多公司都在做,都希望赚钱,但实际上AI的实际应用效果一点都不好,而且价格高昂。

你可以去任意一家律师事务所询问,有没有人采购这种可以轻松分析大量法律文件,归纳总结并拿去上庭的AI产品。一定不会有答案。 

AI没能帮助律师事务所处理这个问题,实际上是因为底层的技术本身还不够强劲,从理论到实践还有很长的路要走。

想要解决这个问题,AI企业第一要做的是将基础算法再往前推进一步,第二点是在数据采集的过程中,保证采集的数据更加清晰、干净。

此外,在非常火热的智能营销领域,由于用户有多元化的需求,然而市场上的产品较少,导致推荐效果并不理想。

我们的方法则是用很多跟AI相关的算法,对流量进行分层。一家公司不管好坏,只要购买了流量,我们就能根据非常有限的信息,对每一个客户进行一次用户画像。

画像后,进行分层,分层后,对不同的人群和不同的流量,进行最优化,然后匹配。

让AI成为“鸡腿”

食之无味、弃之可惜,如何让AI这只“鸡肋”变成“鸡腿”,一直是金融和科技公司在思考的问题。

银行需要一些客观的标准来鉴别哪家金融科技公司AI实力更强,随着合作的愈发紧密,甲乙两方也逐渐摸索出一套比较通用的技术指标。

其中第一个标准叫「KS值」,KS是俄罗斯两位科学家的名字,因为两个人的名字太长,世界上没几个人能记得,所以把他们名字的第一个字母提取出来。这是一个用来衡量AI模型好坏非常通用的指标。

另外一个指标叫「AUC」(Area Under Curve),就是在一条曲线下的面积到底有多大,在这个曲线下的面积越大,说明这个模型效果越好,反之模型效果越差。

还有一个指标叫「F-score」,当准确率变得越来越高的时候,效果也会越来越好,可以把更多的坏人挡在门外。

刚才讲了三个指标,但是如果你的模型覆盖率太低,那也没用。

假如某个模型的目标是覆盖1000万人,即便你测试了1000人,达到了测试标准,但是这并不代表你的AI产品一定就是好的。

此外,AI模型也是有时效性的,随着时间的变化,它的性能是否会大幅下降?AI模型在更新的过程中,是否需要大量时间和金钱?AI模型和银行的核心系统在对接的过程当中是否简易?AI模型本身是否做的很标准化?

这些都是在技术指标之外,银行使用AI产品时,必须要考量的标准。

金融业务十分复杂,每项业务所需要的AI能力也不尽相同。

我们知道,人工智能的三大技术分支:计算机视觉、语音语义、机器学习,对实际业务的改善效果也各有千秋。

计算机视觉在人脸识别、生物特征识别上应用的更多,具体到金融业务中,在支付方式上应用的就很广泛,现在很多人去商店购物都是刷脸支付;当你去银行或者证券公司开户,也普遍使用这样的技术。

当一家企业开完户后,你如果要申请贷款或者理财时,语音语义(自然语言处理)所具备的舆情分析能力就变得很重要。

计算机视觉、自然语言处理一般是应用在贷款过程中。

贷款后,金融机构需要判断个人或者企业发展稳不稳定,是否能还钱。而机器学习算法本身就可以帮助金融机构决定谁先还款、如何还款。

在贷后管理环节,还可以应用语音识别技术。利用人工智能客服,可以大大减少人力成本、提高效率。此外,教育客户什么是AI、怎么用AI也是非常重要的一点。

我们的方式是联合建模,手把手地和客户共同完成一个项目。

联合建模比咨询更进一步,大家肩并肩坐在一起,我告诉你我是怎么一步一步把这个模型建出来的,你跟着我用你的数据重复一遍,这种方法是教育不太懂AI的客户最好的方法。

当然,银行在评估金融科技公司的产品时,也会有自己自有的一套指标或者方法。

比如说某些消费金融机构,会执行一套客观的指标。以24小时、7天或者30天为一个期限,他们会时时刻刻监控模型的效果,一旦模型的效果超出规定范围,马上就会根据期限调整产品。

即使你本身的模型效果很稳定,他也会每3个月做一次测评,每6个月做一次测评,每一年对供应商进行一次重新的测评和调换。

通过这种方法来保证他们使用的产品,一直由最佳技术实力的公司提供。

我的一些思考

从业这么多年,我不断地在加深一个认识:科技和监管之间的关系到底是什么?

很多人认为这两者之间是一对冤家,监管越严,科技公司发展得越困难。我觉得不是。

监管本身跟谁都没有仇,监管是为了能够让金融和科技在合法、合规的框架中更好的发展。

监管,实际上监管的都是金融机构,当然金融公司受到了影响,科技公司也会受到影响,但这并不意味着监管直接对科技产生了影响。

大多时候,监管限制了金融机构的发展,却促进了金融科技公司的长远进步。

没有监管,科技本身将裹足不前。

因为没有监管,银行和金融机构赚钱太容易,从而不会在技术上有大规模的投入。

但是,一旦有了监管,金融机构就戴了锁链,还想赚钱就必须提高自己的竞争力,而提高自己竞争力最好的方法是拥抱科技公司,所以最终监管暂时抑制了金融公司的发展,促进了科技公司的发展, 最终促进了两者的共同发展。

监管的本质是良币去驱逐劣币,监管打击的是劣币,促进了真正的科技公司的发展。

科技公司一般都比较前卫,研究的东西也比较新颖。

人们于是认为科技公司开着一辆法拉利跑车,嗡地一声就开出去很远,监管可能还骑着一辆二八大杠的自行车,在后面追也追不上。实际上不会这样。

因为「监管」在整个道路上面设计了网格化。网格化就是红绿灯、限速、停车等标志,跑得再快的法拉利,到了路口,也要停下来。

红绿灯的时间由「监管」来调控,如果监管觉得科技可以跑得更快,就让绿灯亮的时间更长;如果觉得科技已经跑得太快了,有超速的倾向,监管可以将红灯的时间调得更长。

最后,我也想对金融科技的创业者和优秀技术人才说几句话。

如果你是悲观主义者,那就别再往AI金融行业里跳了,它早已不是蓝海,而是一片看不到头的红海,你还往里跳什么,即便你穿着救生衣,带着游泳圈跳进来,不淹死你,也能挤死你。

如果你是乐观派,你们赶紧来吧,AI金融和其他所有行业比起来,属于近水楼台先得月,是离国民经济最核心的地方。

在这样的行业中,对于科技的渴求是最强烈的,是最容易做出一番事业、最容易发挥我们技术人才聪明头脑的。(雷锋网)雷锋网

封面图来源:电影《万物理论》

]]>
风控与安全 //www.drvow.com/category/DataSecurity /OHydUv2YGZvxp6jk.html#comments Wed, 27 May 2020 07:44:00 +0800
同盾AI研究院深度学习首席专家李宏宇:解构知识联邦,开创数据“可用不可见”新局面 //www.drvow.com/category/DataSecurity /NYoNIeUGOhVT1yCT.html

近日,同盾科技人工智能研究院深度学习首席专家李宏宇做客雷锋网公开课,以《知识联邦:开创数据“可用不可见”新局面》为题进行分享。

关注微信公众号  AI金融评论 ,在公众号聊天框回复“听课”,进群可收看本节课程视频回放。

此前同盾在数据联邦、联邦学习和安全多方计算的基础上演化出统一框架体系“知识联邦”,并基于知识联邦体系发布了国产原创、自主可控的智邦平台(iBond)及《知识联邦白皮书》。

本次课程中,李宏宇详细讲述了知识联邦的技术细节,以及信用分评估、多头共债风险、用户体验A/B test等多个典型场景的联邦学习应用案例。

以下为李宏宇课程全场和互动问答精选,雷锋网AI金融评论做了不影响原意的编辑:

天平两端:数据隐私性和便利性

两年前,我们接触到区块链和联合建模中数据安全需求,就已在探索联邦学习应用。

近年来联邦学习热度变高,一个主要原因还是数据孤岛现象,不仅仅有逻辑上的存在,也有物理上的。不止特征变量是孤岛,也可能是更关键的学习当中的标签,形成了割裂的形象。

在机构间,尤其政府部门,很多数据没有充分共享。又比如医疗,保险公司希望用医院的数据做健康险或寿险的风险评估。银行和税务,也希望通过银税合作来获取客户的风险评估信息。

企业内部也如此:集团化的企业公司越来越大,子公司、分公司,就连部门内部的系统,都可能是自己分别开发的,数据之间完全孤立。

再微观一点,每个用户的数据都有很大的价值,想要生成一组通用的用户画像,要获取到足够多的用户数据非常困难。

消除行业数据孤岛现象,让数据相互之间协作起来,必然是未来发展趋势。

另一种现象,就是隐私换便利,数据不断地泄露导致诈骗。

为什么会不断泄露?很大的一个原因,现在免费使用一些APP时,使用前都要用户授权,获取相关数据。这些其实都是你的个人隐私,个别内部人员可能会拿着你的数据对外变现,产生诈骗行为。

用户隐私都赤裸裸暴露在网络的服务提供者面前,个人隐私当成商品买卖已经是非常普遍的现象。有调研显示,70%以上的社会公众对于当前他们的个人信息是没有安全感的。

近期也有传闻说国外黑客论坛在出售中国很多金融机构的信息。不一定真实,但很多人心里也会紧张。

现在国际上和国内上的立法慢慢出现,这两年中国在数据安全和隐私保护相关已经做了很大的工作。

2019年有数据安全管理办法,这也可能会是未来数据安全法的早期版本;数据交易服务安全要求也做了一些相应的新规定。今年3月份有个人金融信息保护技术的规范。

想要这些数据完全闭塞,不共享数据,这不现实,要把这些有经济价值的数据充分利用起来。这就要在数据的隐私性和便利性之间寻求平衡。也正是这样隐私保护的需求,未来会出现一系列新的技术浪潮。

有很多人对数据安全没有非常清晰的认识。这里我借用数据安全能力成熟度模型的定义来分享。

数据安全的核心,其实是以数据为中心的安全,它的目的仍然是保护数据的可用性、完整性和机密性。数据在安全的同时,要保证它可用。

合法合规的情况下,怎样做数据交易?它的定义是,在数据供需双方以数据商品作为交易对象。

这里的重点就是:数据商品是什么?直接拿原始数据买卖,属于数据商品,而对原始数据加工处理后的一些数据衍生产品也属于数据商品。

另外一个更被大家关心的,就是隐私保护,在国内更多时候会称之为个人信息

什么是个人信息?所有能够单独或结合识别特定自然人身份的那些信息,甚至是反映活动情况的信息,都叫个人信息。

什么是共享?如果你是信息的控制者,你将信息共享给对方,就让对方拥有了控制权,在这之后你可能就没有撤回或是拒绝的权利了。

这是共享最大的一个痛点,新版的个人信息安全规范里面会看到很多关于信息共享的要求。

有用性,这是数据的一个非常重要的特点,就是数据对于应用一定要有具体的含义,要不然这个数据就没有价值了。

为打破数据割裂和避免隐私泄露,数据可用不可见就成为一个重要的目标。数据可用不可见,即充分利用对各方的数据,让数据保持对外开放,同时能够让数据不直接共享,不离开机构或个人

在杨强老师的课程里有提到过,数据不动模型动,这是能够解决数据可用不可见的一种方式。但它的核心是要去训练一个模型。而数据可用不可见,不一定需要做建模这件事。

还有很多时候可能只是想做计算,这就不再是训练模型的事情,而是开放和不共享的问题。

开放不共享,就像国家之间在能源材料的合作中,每个国家有一些核心资源如铁矿石,类似于机构的基本生产数据。

很多国家禁止出口这种核心的资源,相当于是不能直接共享。但对于铁矿石加工后的钢铁制品,他们却开放出口的。

也就是说,数据经过加工之后,形成了一种半成品的形态,它是可以开放出去使用的,而不是用一种直接共享或直接访问原始数据的方式。

这样看来,我们其实可以也做到数据可用,但又不可见。换句话说就是,“懂你不认识你”。

懂你不认识你”主要针对个人用户。举个例子,很多人的浏览习惯或行为会涉及到个人隐私,这些数据是不希望直接对外共享的。

但是我们又很希望能够获取到很多便利服务,让手机更懂自己,在需要的时候能够提供相应的推荐,让软件做得很智能、很贴心。这时就可以采用数据可用不可见的形式。

为了实现数据可用不可见这个目标,传统的中心化计算模式,也就是大数据经常会做的中心化聚集,把数据存储聚集再学习训练,已经不能满足要求。

中心化不可行,那就让数据分散在各个机构形成,依然保留着所谓的小数据模式——相对来讲是小数据,当然也有很多机构的数据量已经很大——采用分布式或去中心化方式计算或学习。

原始数据直接共享不可行,我们可以采用两种方式,一是对数据进行加密,加密后也不破坏原始数据的统计特性。

第二种方式,可以将数据知识化,也就是说将数据转化成为一种模型策略的知识,然后再把这些分散的知识聚合在一起,实现数据的可用。这就是知识联邦的大致构想。

知识联邦全景图

知识联邦从名字上看,有清晰的两个主题:知识和联邦。

什么是知识?这个概念源自于我们谈论数据和信息。

数据一般被认为是原始素材,客观描述客观事物的数量、属性、位置等关系。

信息则是经过加工处理之后、具有逻辑关系的数据,通常会是对决策有价值。

知识,更多是在信息层上再进一步地归纳演绎之后,沉淀下来的有价值的信息。通常情况下,知识被认为是与决策有关的。

智慧是有了知识之后,才能进一步预测和判断未来,这可能是未来智慧城市或智慧决策的目标。

数据、信息和知识经常被混用,三者的界定和使用者有很大关系。

比如某个经过加工的数据,它可能对某人而言是一种信息,但对另外一个人来说可能只是一个数据。

在某种语境下产生的一个知识,在另外的语境里可能就是信息,甚至是根本没有任何意义的数据。

从知识再跳到联邦,其实联邦才是我们的重心,其实想做的事情,最终是希望通过一种安全的方式解决数据孤岛现象。

在知识联邦里,联邦本质其实是一种数据的安全交换协议

之前还有数据联邦,其实它跟知识联邦差别很大。数据联邦更多是一种数据集成方法,它实际上就是联邦数据库系统,将不同来源的数据库集成之后方便查询。关键是它不涉及到隐私保护的机制。

知识联邦其实是一套理论框架体系,目的是将数据联合起来,转换成为有价值的知识,同时在联合的过程当中采用一些安全的数据交换协议。目的是有效利用各参与方的数据来进行知识的共创、共享和推理。

联邦学习更强调怎样训练、学习、建模,创造知识。但事实上还有很多常识、先验知识或领域知识不需要让机器学习就可以去共享的,比如多源知识推理,这也属于数据可用不可见。

在真正的实践中,我们采用一种弱中心化方式。过去强中心化大数据集成方式是不可行的,主要是安全存在很大隐患。

但完全的去中心化,也很难兼顾效率。尤其是在进行共识计算的时候,效率非常低。弱中心化方式更多是一种强中心化和去中心化的折衷,在中心节点只进行计算,不对数据集成存储,可以达到安全和效率的兼顾。

在知识联邦的框架体系里,我们不仅仅可以进行联邦学习,同时也可以进行安全多方计算,也可以进行安全多方共享和安全多方推理。

事实上整个知识联邦,与很多技术有一定关系,比如可执行环境和隐私计算。前者依托硬件,可以成为知识联邦的一种硬件化实现方式。

隐私计算更关注的,是隐私数据从产生、收集、保存,甚至到销毁,所有环节中保护(隐私数据)的方法。但在使用中,它偏于计算,而不包含学习的一些过程。

知识联邦可以根据不同方式进行分类。

  • 根据数据的特点分类

分成跨样本的联邦、跨特征的联邦,甚至还有同时基于这两种形式的复合型联邦。

跨样本的联邦更多是同构的数据,数据特征一致,但数据拥有方式不同。跨特征的联邦,更多会存在不同的机构间。当然这还是要有相同的、有交集的用户才能进行跨特征的联邦。

除了这两种形式之外,更复杂的是既要跨样本又要跨特征复合型联邦。

  • 根据联邦应用目的分类

可以分为联邦计算、联邦学习、联邦推理等。刚才提到联邦学习包含的主要是训练和预测两个阶段。

最早谷歌做联邦学习,更强调训练。训练结束后,模型预测直接发送到各个客户端的手机,用户自行预测。但在跨特征联邦,联邦训练和联邦预测都会遇到非常复杂的问题。

联邦计算,类似于安全多方计算。

联邦推理,更多是知识层上的推理过程。

比如疫情期间,为了调查患者周围的可疑人群,会涉及到很多数据,包括行为轨迹、社交网络、住宿交通等等。

但这些放在一起不是单纯再训练,是想把已有的知识做更多的知识演绎,推理出来新的知识,最终锁定嫌疑人群。

  • 根据对象类型

知识联邦也可以分为是个体间、机构内和机构间的联邦。机构间的联邦大家都比较熟悉了,机构内部的联邦其实也非常多。

比如大型跨国机构希望把在中国境内获取到的数据,能够帮助他们在东南亚、甚至是其他国家能够有更大的帮助,但会涉及跨境数据交换的问题,此时机构内的联邦就发生了。

  • 根据联邦阶段分类

分为信息层、模型层、认知层,和知识层联邦。

信息层:主要发生在联邦的数据转到第三方的服务器之前,需要先把所有数据加密,或通过某种形式转换成为有价值的信息。

模型层:发生在模型训练过程中,跟之前提到的联邦训练的过程实际上是一致的。

认知层:也发生在模型训练过程中,但并不把模型参数聚集在一起联动,而是把局部训练之后产生的粗浅认知进行联邦,变得更合理。

知识层:前面形成很多认知结果之后,把它存成知识库。这种知识库其实每一家机构都有,能够组成一个知识网络。如果在知识网络上不断推理和演绎,挖掘出更有价值的知识,能提前预判事情的发生,最终形成合理决策。

比如疫情爆发最终导致全球股票、期货大跌; 比如黑龙江等地成为二次爆发疫情的高风险区,其实这些都是知识推理的过程。

具体来看,信息层联邦在隐私保护方面,对加密技术要求更高。加密技术没有到位,就无法很好保护参与方数据。所以信息层的联邦一般要求数据脱敏加密之后,一定是以密文形式在第三方服务器上计算。

信息层更多应用在联邦计算的过程当中,比如金融经常出现的多头共债问题。在大产品的运维和升级过程中,经常会做的比如A/B test,这些都可以在信息层完成。

信息层也可以做联邦学习的工作,但它不是在每一个参与方向去做训练学习,而是把所有的密文数据直接放在第三方服务器上,再在密文上训练学习。

除此之外,还可以在信息层上做联邦检索。比如失信人员黑名单的查询,这也是一个普遍存在的需求。

跨特征联邦时,需要做的用户对齐可以在信息层上完成。

模型层,是用本地数据训练本地模型,把模型参数变化加密之后,传送到第三方进行聚合。

认知层,是在每一个参与方训练本地的数据,提取本地的模型的特征表达,加密之后上传到第三方服务器,实现集成。

这种应用主要出现在多模态智能信贷、智能身份认证。

在跨样本联邦中,认知层有点类似于机器学习里的集成学习,不过联邦会更关心数据隐私保护。

关于知识联邦的更多技术细节,可以查看我们近期发布的白皮书。

何为工业级应用产品智邦平台?

智邦平台的核心有四大模块,第一是任务场景

现在平台中的任务场景还需要定制开发,一个场景需要定制一个模型。一个常见问题是,以前有很多面向不同任务场景已经建成的模型,现在还没有办法快速联邦化。

第二个模块是功能服务。智邦平台解决的是真实应用中会遇到的问题,比如模型发布,参与方之间的数据贡献怎么衡量?费用怎么统计?

第三个模块是开放计算平台。平台会模块化,并支持开放式、自动化建模,方便快速建模的操作。

第四个模块是基础设施。基础设施更多是一些通用组件,提供底层服务。计算平台和相关依赖采用容器化方式,能让部署更方便快速。

除了四个核心模块这里有两个关键的中间件,一是通信设施,二是数据交换沙箱。

跨样本联邦相对来讲比较容易落地,但跨特征联邦必须要有这么一个多元异构数据的交换沙箱才能够完成,尤其是在内网外网的通讯。这里涉及到的更多工作就不再展开了。

跨样本时,有很多深度模型、树模型都可以直接采用,但跨特征联邦很多模型需要定制。

尤其是在金融行业,大家更关心模型的可解释性,所以很多时候都不用深度模型,而会选择树模型。智邦平台就提供了包括深度模型、树模型在内的一些联邦算法可供用户选择

跨样本联邦中还有一个常见问题是,用户数据太少,也就是小样本的问题。平台中也提供了基于小样本进行联邦(学习)的方案。

简单来讲,平台三大亮点是:安全、智能和实用。平台通过联邦的数据交换沙箱和安全交换协议来解决安全性问题;平台提供多种智能模型供大家自由选择;同时从贡献的评估到计费,平台提供了一系列功能解决实际应用问题。

网络安全方面,将网络安全域划分成参与方的私有域、交换域和联邦域三部分,数据交换发展在交换域,联邦集成是在联邦域完成。

数据安全和隐私保护方面,从隐私数据处理到模型数据的传输,平台提供了多种安全加密方式,保证不同机构间交集外所有用户数据的安全性。

不过对于联邦平台的安全性和隐私保护等级,目前为止还没有一个类似等保的标准,能对平台工具进行等级认证。

事实上,对于数据安全,应该要从数据流通的全过程进行评估。对每一个涉及到数据隐私的地方,都要衡量采用的隐私技术所能达到的隐私保护等级。我们也在联合多家单位一起推动相关等级认证标准的确立。

在金融行业应用中,很多时候大家弄不清楚哪些数据属于隐私、敏感程度达到什么程度。今年3月,央行出台的个人金融信息保护技术规范,把很多金融信息分成了 C1、C2、C3的等级。根据敏感等级,可以采用不同的技术手段进行数据去标识化和脱敏。

在联邦应用中,经常会涉及到的主要还是C2级数据。C1级敏感数据,更多是标记信息。不过C1、C2、C3的划分也具有相对性,当相同的信息组合在一起,敏感度也会升级。所以考虑数据隐私保护,必须要在一开始就要做数据分级完整规划。

总的来说,智邦平台是参照知识联邦体系打造出来的一站式联邦平台。平台在算法能力方面,不仅支持联邦学习,还支持安全多方计算;也提供了非常朴实有效的一些算法;同时提供了联邦特征选择方法,来保证参与方的数据质量。

安全机制方面,平台提供了多种加密算法,比如在数据安全对齐中,平台可以保证参与方交集外数据不会泄露。同时保证,标签信息在训练中不会参与传输。

而平台最核心的联邦数据安全交换沙箱则可以实现对数据标准化和脱敏处理,同时封装了一系列数据安全交换协议,供联邦使用。

实施应用方面,平台在本地计算可以采用Spark计算方式,效率高,也方便和现有的机构大数据生态打通。同时系统采用容器化方式,方便部署实施。

五大应用场景详解

  • 智能金融风控

统建模方式里,运营商如果没有y数据,无法单独建模;双方又都不可能暴露自己隐私数据。

智邦平台中会先由中间方协调者分发一个模型,然后分别基于本地的数据计算梯度。

尽管运营商没有标签信息,但平台在这里采用了计算换安全的方式,也是基于不经意传输(OT)方法,把所有可能梯度都汇集到有标签的一方,让它筛选和聚合。这时可以在y标签没有被传输的情况下,快速完成模型迭代。

当然,这可能会让计算成本高一点,但联邦建模的隐私性肯定是要远远大于传统联合建模。如果不考虑通信问题,这两种建模方式的收敛速度基本上一致。准确性也差不多。

  • 小微企业信贷智能信审

企业信审相对更复杂,会有公开数据、自有数据或是第三方数据,各方数据汇集在一起,形成完整信息模型,这是很大的工作量,于是我们有了这样一个信审模型。

不过如果能利用调查、工商、司法等信息,可以进一步做联邦推理,这时的信审才能算是完整的。

  • 用户行为联合建模

这是典型的跨样本应用场景,要做的是无感认证

简单说,输入密码的时候,我们每个人都有一些固定的输入行为习惯,这些行为习惯能通过学习方法提取出相应特征。

这就可以在密码保护的同时,加一层无感认证,在输密码的时候自动判断用户行为,判断输密码的是否为用户本人。

但是每个用户端不可能暴露自己的数据,同时也很难采集到每个用户很多行为数据,这就要用到基于小样本的联邦元学习。

联邦元学习的隐私性肯定会要大于非联邦方式;准确率也会比非元学习高很多。

  • 多头共债累积风险联邦计算

很多机构都借贷评估时都会面临一个问题:这个用户有没有在其他家做过贷款?他的风险是不是已经透支得差不多了?

这时就希望能得到很多其他机构的数据,这个过程通常不需要去训练学习,而是会利用一些简单的知识进行判断。

累计借贷风险可以通过安全的统计计算方式,在保证各家数据隐私不会泄露的前提下,汇总计算出该用户的累计借贷风险。

  • 用户体验A/B test

在自动化大运维平台体系做A/B test,我们通常会分流出来一批用户,然后判断软件上的某些改变会否让他们的浏览行为习惯发生变化,是否会对他们有偏好上的影响。

我们可以统计用户的信息,但不是直接收集用户操作行为数据,而是分别在用户端对他们的行为习惯进行统计计算,最终形成整体的统计特征作为统筹决策的依据。

现实应用中,我们会面对很多分散的小数据,知识联邦的目标是通过安全多方计算和学习,做到数据可用不可见,同时知识共建可共享。

智邦平台作为知识联邦参照实现的联邦平台,会逐渐形成一套开放的操作系统,用户可以组建和参与不同的任务联盟,或者从模型商店中选用不同的模型。系统逐步开放开源给大家,让更多用户参与其中,这也是我们整个智能开放操作系统的愿景。

智邦平台对银行消金非常有价值,可以持续提升其核心竞争力,并提高其风控质量,让其数据价值变现。同时,也可以帮助相应机构提升行业影响力,并满足监管对于数据安全和隐私保护的要求。

总结一下,知识联邦的落地实施有三个重点:

首先是连接,也就是连接多方,让多方参与进来,才会有联邦数据安全交换的问题。其次是智能,安全多方应用最终目的还是智能化应用,从多方数据中安全的提取和利用智能知识才是关键。最后是开放,一个体系框架的发展和落地应用需要大家广泛的参与。

知识联邦是一个开放的体系,智邦平台也是一个开放的平台,未来会逐渐开放出去,和大家合作共赢。

互动问答精选

问:一个子模型被攻击,在模型联盟过程当中会造成怎样的安全风险?是否存在较完善的防御策略?

李宏宇:其实模型攻防策略,不只是在联邦过程产生,现在很多模型训练都会遇到,这些策略都可以在联邦中使用。如果子模型只是被几次攻击,而整体数据量比较大的话,在长时间的训练过程中,攻击的影响会逐渐退化掉。

另外,如果其他参与方很多且数据量非常大的时候,一个参与方的模型被攻击,相对影响还是会有,但不会那么明显。

问:怎么分配利益?如何衡量各方的贡献?

李宏宇:智邦平台提供了联邦特征选择的方法,来保证用户数据质量,遴选那些对于整个模型精度有提升、有帮助的特征。模型精度提升的效果就是衡量贡献并进行利益分配的一个标准。贡献度评估方法其实有很多种,但在联邦应用中落地实施还需要进一步技术突破。

问:联邦学习或知识联盟是否只是大厂的机会?

李宏宇:倒不一定。联合建模也好,做联邦也好,这都是应用导向的。但现在最困难的一个问题是,怎样把这机构间多元异构数据给标准化和统一化,这才是最大的痛点,大厂也不一定能解决这个问题。

现在的关键是谁能把这个问题解决掉,其它建模或计算就都可以在这样的基础平台上去完成,并创造价值。各种企业都有机会。

问:准确性提升算谁的?

李宏宇:在整个联邦过程中,模型提升通常有一定的应用目的。通常会有一家模型需求方,用自有的数据训练出的准确度不高,但是如果引入其它联邦方的数据时,精度就会大大提升。这个时候准确性提升的功劳是谁的?这个问题显而易见,难的是如何量化这种贡献。

问:样本对齐和加密模型训练与对策,区别在哪里?

李宏宇:样本对齐是发生在模型联邦训练之前的一个工作,主要是寻找参与方之间的共同用户(交集)。样本对齐面临最多的问题是,参与方都不希望交集外的数据还被泄露出去。现在智邦平台做到已经达成了这个目标。

样本对齐要想做到充分安全,也就是交集内用户也不对外可见,还是有很大挑战的,这需要与训练过程结合在一起才能实现。

后台回复“知识联邦” ,即可获得完整版《知识联邦白皮书》。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /NYoNIeUGOhVT1yCT.html#comments Mon, 25 May 2020 15:20:00 +0800
创新工场南京人工智能研究院执行院长冯霁:联邦学习中的安全问题 //www.drvow.com/category/DataSecurity /zIplKW7BqZFpZlfm.html

近期,创新工场南京人工智能研究院执行院长冯霁做客雷锋网AI金融评论公开课,以“浅析联邦学习中的安全性问题”为题,详尽地讲解了联邦学习的特点、联邦学习的应用和安全防御对策等内容。

以下为冯霁演讲全文内容与精选问答:

今天跟大家简单的汇报,我们对联邦学习中安全性问题的思考。

在介绍联邦学习之前,先简单介绍一下创新工场。

创新工场,是由李开复博士在2009年创办的创投机构,经过10余年的发展,在国内外都颇具影响力。

创新工场的特色之一是设立了创新工场人工智能工程院,开创了独特的VC+AI模式。创新工场人工智能工程院最近针对人工智能系统的安全性和隐私保护方向,做了一点自己的思考,今天和大家做一个简要的技术上的分享。

人工智能系统的安全性问题

这一波(2015年后)人工智能的兴起,使得人工智能逐渐从低风险的应用,比如判断一封邮件是否是垃圾邮件,转向了高风险应用,比如自动驾驶、无人机、还有重度依赖人工智能技术的金融投资、投顾等领域。

一旦这些人工智能系统出现了偏差甚至错误,它所带来的损失不仅仅是巨额的财产,还有可能是生命。

但是,一个核心的问题是,人工智能领域涉及到的安全问题,和传统的软件工程安全问题,是否存在本质的不同?我们能否继续使用传统的攻防工具,对人工智能系统进行安全分析?

这就需要谈到软件1.0和软件2.0的概念。

我们认为在这一轮的人工智能兴起之后,整个软件工程也产生了一个范式的转变。

在传统的软件工程中,工程师会搭建一个系统,构建一个基于规则的程序,输入数据后,计算机会给出确定性的输出。这是软件1.0时代的特征。

而随着这一波人工智能的兴起,诞生了一个新的软件工程开发范式,程序是由数据驱动的方式,利用人工智能算法自动产生的,这从软件工程角度来看,是一个相当本质的改变,有人称之为软件2.0时代。

因此,在软件工程1.0时代的一系列安全分析,漏洞分析的手段,到了软件2.0时代不再适用。软件工程范式的改变,带来了全新的安全问题。

目前针对人工智能系统的攻击,可以分成两大类。一类是测试阶段攻击,一类是训练阶段攻击。

测试阶段攻击

训练阶段攻击发生在AI模型训练之前,测试阶段攻击针对是已训练好的AI模型。我们先看测试阶段攻击。

测试阶段的攻击,大家见的最多的一类,也对抗样本。

左边的这张图拍的是大熊猫的照片,当攻击者知道这个图像分类模型的所有参数后,就可以根据模型的参数,精心设计出干扰“噪声”(中间的图)。

把噪声叠加在左图,形成右图。虽然我们用肉眼看到的右图和左图一模一样,但图像分类模型会把右图的熊猫错认为另一种生物。这个过程就是所谓的对抗样本攻击。

对抗样本不仅仅可用于电脑储存的数字图像,还可以应用在真实的物理环境中。

比如对交通的路牌做微小的改动,就可能让自动驾驶汽车在行驶过程中因为不能正确识别,而做出错误的行动。再比如用3D打印技术设计出一只乌龟,在乌龟的纹理上做对抗样本的叠加,模型会认为这是一个其他物种。

对抗样本并不神秘,学术界认为它攻击原理的本质就是由于我们的输入样本在一个非常高维的空间中。而通过机器学习模型学习出来的决策边界,在高维空间中是高度非线性的。

对抗样本在这些高度非线性的角色边界附近产生了一个扰动,扰动就会让模型从分类一误判为分类二(如上图)。但它们在视觉上很难区分。

刚才讲的对抗样本,从另一个角度来看,是白盒攻击。意思是攻击者需要提前知道AI模型的所有参数信息。

黑盒攻击,是另一种测试阶段攻击,攻击者对指定模型的参数未知,只知道模型的输入输出,这种情况下依旧想产生特定的对抗样本,很明显黑盒攻击的难度更大。

怎样才能让黑盒攻击,做到和白盒攻击一样的效果呢?对此,目前常见的攻击思路有两大方向:

黑盒攻击的第一大方向,是利用对抗样本的普适性。

虽然准备攻击的对象的模型和参数不知道,但是我们可以找一个已知的模型,比如说VGG,或者ResNet(残差网络),来做一个对抗样本。

我们的核心假设是如果这个对抗样本能哄骗已知的模型,也就能哄骗云端(黑盒)的分类器, 2016年有人做过一个的工作,用不同的神经网络架构产生相应的对抗样本,去哄骗其他的结构。实验的结果证明了,这个假设是合理的。

怎样加强这种对抗样本的普适性?

首先是在训练替代模型时,对数据进行增广,其次是利用集成方法,如果它能成功的攻击多个已知的白盒的模型的集成,那么攻击一个黑盒的API,成功率就会高一些。


黑盒攻击的第二个方向,是基于查询的逆向猜测,目前有一些云服务,返回时显示的不仅仅是一个标签,还包括了某一个类别的概率的分布的向量。

这个分布向量包含了关于模型本身非常多的知识。我们可以让这个模型标注足够多的样本,然后训练一个本地模型,模拟云端模型的行为。由于本地模型是白盒的,利用现有白盒攻击算法,针对本地模型产生对抗样本,再由于普适性,该样本对云端黑盒模型往往同样有效。

这件事情的关键,是训练一个本地的模型,该模型能够模仿黑盒模型的行为。有点像吸星大法。学术界Hinton等人提出的知识蒸馏,以及更早的周志华教授提出的二次学习,本质都是在干这件事情。

我们也可以用遗传算法,改变输入样本的像素的值,每次改变一点点,就访问一下云端的API。用这种方式,我们就能慢慢地收到一个可以哄骗云端的对抗样本。

训练阶段攻击

刚刚讲的,是测试阶段攻击。下面讲,训练阶段攻击。

训练阶段攻击,发生在模型产生之前。比如说经典的训练阶段攻击是数据下毒,目标是改动尽可能少的训练数据,使得训练后的模型,在干净测试集上表现尽可能差。

最近我们和南大周志华教授合作,提出了一个新的范式,我们叫毒化训练(参见Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder,In NeurIPS 19)要求对每个样本尽可能小的扰动(注意数据下毒是尽可能少的样本进行编辑),使得训练后的模型,在干净测试集上表现尽可能差。


毒化训练,从流程来看就是这样,针对一个训练集,需要用一个函数在训练集上做某种程度上的扰动。

然后任意一个模型,在毒化后的训练集上做完训练后,它在面临一个干净的测试样本的时候,每次的预测都是错误。

那么这里的关键就是如何得到下毒的函数g,在Deep Confuse这篇文章中,我们用了一类特殊自编码器。自编码器是非常经典的,从输入到同输入空间中的映射。去噪自编码器,能做到噪音样本经过编码和解码这两个步骤,把原始有噪音的样本去噪。

这个算法把去噪自编码器逆向使用,让自编码器学习出如何增加毒化噪声(而不是降噪)。 

这里就涉及到了算法的第二个核心思想: 

我们需要同时训练一个假想的分类器和一个我们想要的加噪自编码器。通过记录假想分类器在训练过程中更新的轨迹,反向的更新毒化噪声器的参数。

举例来说,我们观察一个人学习的过程,然后根据这个人学习书本的轨迹,修改书本的知识。我最终希望他学完这本书后,每学一步都是错的,每一步我们都稍微修改了一点点。通过劫持一个正常分类器的学习轨迹,我们教会了加噪自编码器如何下毒。

效果是明显的,如上图所示,abc中的三张图,第一行都是原图,第二行都是毒化后的图片,从视觉上看,我们很难看出不同。

但是对于分类器来说,在毒化后的数据集上训练的分类器,面临干净样本的时候,正确率降低到了完全不可用,正常图像数据基本都不能正确的被识别。

毒化样本也存在普适性,我们针对于不同的网络架构(VGG、ResNet、Dense)做了一些实验。

这三个不同的网络架构,在相同的毒化训练集上,预测准确度都会有一个非常明显的下降。

当然,毒化训练,不是只能干坏事,它也能做好事。

毒化训练,可以用来保护公司的知识产权。比如医院,如果想去发布一些训练集,但又担心第三方用发布后的数据进行商业活动。作为数据的发布方,可以将想要发布的训练集毒化,让第三方不能随意对这些数据进行商业运作。

下面讲联邦学习。

联邦学习,我的理解是,他本质上是下一代分布式机器学习系统。它本质上是一个分布式的架构,在这种分布式的架构下,它具备传统分布式平台不具备的隐私保护的功能。

联邦学习有三个显著特点。

第一个特点是刚才提到的隐私保护。由于训练数据不会出本地,联邦学习满足欧盟的GDPR法案(通用数据保护条例)等各类隐私。

第二个特点是端部定制。

联邦学习在边缘计算中前景巨大。

根据联邦学习算法的特点,我们如果在边缘计算的过程中,比如说我们在可穿戴的医疗设备中,这个模型不仅保护了本地数据,跟云端的大模型相比,它还自适应的去满足基于本地数据的个性化需求。每个人对医疗设备的需求是不一样的,我们可以根据不同数据的输入分布,做一个端部的定制化。这非常具有商业价值。

第三个特点是大家熟悉的协同合作,在不同机构之间,比如一家电商网站和一家银行之间的合作。在联盟学习没有推出之前,这件事情可能在技术上不可行,而在联邦学习推出之后,这件事情可以做到。


联邦学习的应用可分成四大类。

第一,是基于政府的联邦学习应用。这类应用主要是因为法律法规或者政策性的要求,催生的AI服务。

第二类,是基于企业的联邦学习应用。部分大型机构内部之间的数据不能进行直接的交换。

第三类,消费端的联邦学习应用,更多的是针对于边缘计算或者定制化。

2C端,更多和边跟边缘计算有关;而2B端,更强调联邦学习的协同能力。

当然也可以做把2B、2C混合着做,统称混合型联邦学习应用。

在联邦学习的分布式场景下,安全的问题更加需要研究,因为攻击者攻击的可能更多。

比如攻击者所了解的先验知识会更多,要么是知道某一方的数据,要么知道某一方的模型。不需要知道所有方的数据和模型,攻击者就能做出攻击。

攻击者的目的也更为多样,他可能只针对于某一方进行攻击,也可能把整个联邦后的结果都进行攻击。不管如何,被攻击者所面临的场景矩阵都会更加复杂。

针对联邦学习的攻击的方式可以分为三类。

第一类是黑/白盒攻击,攻击者获得模型参数(白盒),或者通过API进行访问(黑盒)。黑/白盒攻击具有普适性,和联邦学习关系较小。刚才提到的各类黑盒白盒攻击,在联邦学习场景下依旧适用。

第二类是信道攻击。

如果攻击者侵入了训练过程中的通信系统,他只能够监听到本地的小模型跟中央的Server之间的梯度更新的信号,我们能不能做一些事情?

上图基于对抗生成网络,如果你有相应的梯度更新的方向,这篇工作告诉我们,目前技术上能够高保真的还原出对应的样本。怎么防御呢?

目前,我们已经有了的防御方案,比如对梯度参数信息进行同态加密,能够以非常高的概率防御这一类的信道攻击。

最后一类是数据攻击,也就是刚才提到的毒化训练,数据下毒。

联邦学习场景下,毒化训练的核心问题是,仅仅毒化个别数据库(而不是所有数据),是否可以依旧破坏模型的准确度?

例如如果我们只得到了30%的数据,毒化训练的算法有没有效,需要实验验证。

在多方联邦学习场景下,我们用CIFAR10的数据来分别毒化不同比例的本地数据库,观测毒化的效果。

如上图显示,不管是两方学习、三方学习还是四方学习,不管我们攻击了一方、两方、三方还是把所有数据都攻击,性能都会降低。

当然你攻击的联邦学习的参与方越多,攻击的成功率和攻击的显著性就会越高。

安全防御,是一件非常困难的事情。

做一个坏人很容易,做好人却很难。坏人,只需要攻击一个点,攻击成功了,攻击的算法就有效。如果做防御,你需要对所有潜在的攻击都做保护。

我简单介绍三类不同的防御思路。

第一类就是刚才提到的,基于信道的攻击。用同态加密或者多方安全计算,能够解决信道攻击。

第二种思路,即鲁棒性机器学习。其实在深度学习之前,学术界就有非常大量的鲁棒性机器学习研究。

第三种思路是对抗训练和联邦对抗训练。

对抗训练是鲁棒性机器学习的一个分支。对于每一个样本点,在围绕这个样本点的附近,都能够有一个非常好的性能。通过这种方式来避开在高维空间决策边界中样本的一些扰动。在联盟学习场景下,我们仍然需要开发一些新的、可以规模化的对抗训练算法。

目前对抗训练是一个非常好的技术,但是它在面临海量训练集的任务的时候,很难形成规模化。这是我们从算法上设计更好实现安全防御的三种对策。

时间有限,今天就和大家介绍这么多,谢谢。

互动问答精选

Q1: 为什么说毒化后的样本,可以防止成为不好的用途?

冯霁:当你把要发布的数据进行某种程度上的毒化,第三方因为不知道你如何毒化的,所以他就没有办法拿你的数据做你不想让他去做的一些场景和商业落地行为。

Q2: 为什么四方学习的原始数据,准确度比两方的低很多。

冯霁:下毒的训练集越少,没有毒的训练集越多,下毒的能力就越少。

最极端的例子是,如果你有100万个样本,你只改了一个样本,训练之后,你对模型的操控的能力跟操控的幅度就会更小。

Q3: 最近有银行和医疗公司泄露数据的情况发生,联邦学习现在的成熟度,足够应对这些情况吗?

冯霁:泄露数据的原因比较多,联邦学习是能够从算法上和技术上防止数据的泄漏。

如果因为业务方本身或者其他原因导致的数据泄露,那么这就不是一个技术问题,也就不是联邦学习所能够解决的领域和范畴了。

Q4:原始数据是指毒化前的数,如何应对非iid场景下的毒化攻击。

冯霁:在iid场景下进行毒化攻击,都很难。毒化攻击这件事情本身和这个样本是不是iid没有多大关系。

只能说,如果样本是iid的话,对于一些分类任务它是能更好毒化的。

Q5: 联邦学习和区块链有什么不一样?

冯霁:不太一样。

联邦学习更多的是一个分布式的机器学习平台,而区块链更多的是在做一个去中心化的、可靠且不受干扰的信任机制。

Q6: 无人车怎样防范错误的识别图像?

冯霁:有人专门做过实验,检验目前商用的无人车是否能识别毒化后的数据或者图片。

当我们把路牌的进行处理会发现,目前现有的、比较成熟的无人车视觉系统都会做出相应的误判。

无人车公司需要在这一类高风险模型的训练过程中利用到对抗训练,增强模型的鲁棒性。

Q7: 联邦学习会导致隐私泄露吗?

冯霁:联邦学习是一个保护隐私的、分布式的机器学习平台。在这个框架下,我们可泄露的东西非常少。

当参数被加过密,信道在通信的过程中,也是监听无效的。我觉得唯一需要注意的是刚才提到的毒化训练。

联邦学习的数据不仅仅要不能出狱,同时在不出狱的同时,你还要保证别人也不能看到。

如果你的数据在不出狱的前提下,能够被第三方进行某种程度的修改,那么这也能给这个系统带来隐患。

Q8: 如何平衡联邦学习的效率和安全?

冯霁:这其实是一个商业问题。

我们希望在未来,能够在可异性和隐私保护之间寻求一个平衡点。

这个平衡点,我们认为跟产品本身有关。

有的产品是受到法律强制性约束的,它基本上是是没有可平衡余地的。

对于不受法律严格约束的应用场景,我们认为应该把这个选择的权利交给用户。

用户想要一个更强的隐私保护,效益就会差一些;用户希望效率更高,那么隐私的保护可能就会弱一些。这个选择的权利不应该只让产品经理决定,而更应该交给用户。(雷锋网)

雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /zIplKW7BqZFpZlfm.html#comments Mon, 18 May 2020 10:23:00 +0800
支付宝安全的功守道:15年时间,再次定义AI风控 //www.drvow.com/category/DataSecurity /tXPMbtaDDtMmILL7.html

德国门将诺伊尔最让人印象深刻的场景,定是他立在球场中圈的一幕。

很难想象一个守门员敢在大赛里直接跑到中场,甚至打二过一组织进攻,一支球队的最后防御居然还能如此强势地以攻为守。

正如同金融安全的风控后防线,设计思路同样跳不出被动防守的思维定式。

但支付宝想到了。

攻击型门将凤毛麟角,主动出击也是偶尔为之,支付宝却打算告别单一守势,让主动风控变成金融安全「阵型」里的常规配置。

而这也只是支付宝在十余年实战经验和技术积淀之上,基于对未来风控趋势的判断,提炼出的风控核心概念之一。

在交互式风控、多方风控等数个概念指引下,支付宝这条资金后防线战绩辉煌:光是在2019年这一年就保护了过万家合作伙伴,替客户省下超过300亿元的成本,更做到了千万分之0.64的全球最低交易资损率。

随着今年3月支付宝全面升级为“数字生活开放平台”,数字生活的商业生态让安全防线面临着七大业务风险的全新挑战。

盗用风险、欺诈风险、违禁风险、真实性风险、营销资金风险、纠纷风险等……究竟支付宝的后防阵容是如何兵分C端用户和B端商户两路,为12亿用户的安全感而战的?

在2020支付宝安全发布会上,我们得以窥见这道进化版铁壁铜墙的全貌。

蚂蚁金服副总裁、支付宝安全实验室首席科学家赵闻飙在2020支付宝安全发布会

C端半场:AlphaRisk的“亿”点挑战和风控主动权

支付宝上每天有多少笔交易?上亿笔。

每笔交易背后,都是一场看不见的技术功守博弈。

博弈的十余年间,支付宝自主研发的智能实时风控系统,自2004年诞生上线以来不断优化升级,如今到了第五代,出落成AlphaRisk这一员大将。

AlphaRisk对每笔交易进行用户行为、交易环境、关联关系等8个维度的风险检测,需要多少时间?不到0.1秒。

它配置的「武器」里有近500条量化策略,100个风险模型,用于7*24小时的实时风险检测扫描及保护交易支付,于数亿交易中精准识别用户的账户异常行为。

同时,它能够自动贴合用户行为特征进行实时风险对抗,确保用户账户安全和支付交易的万无一失,并将对用户的干扰降到最低,把安全和体验这一对被金融圈打趣为“不可调和的矛盾组合”高效整合,互相促进。

2017年初,支付宝开始建设AlphaRisk风控大脑。项目1期上线后,支付宝的资损率下降至千万分之五。如今这一数字已降至0.000064‰,低于千万分之一,也远低于国际领先支付机构的1.5‰。

作为保障支付宝安全的核心系统,AlphaRisk的水准可以说是AI当关,万“黑”莫开。

风控系统的自主成长

但在进化到第五代之前,这个AI风控引擎平台,有着业内风控体系普遍存在的问题:人工多于智能。

蚂蚁金服副总裁、支付宝安全实验室首席科学家赵闻飙告诉雷锋网AI金融评论,早前的版本里,风控系统更依赖专家经验,更倾向于选用轻量级的模型,例如逻辑回归、评分卡等,AlphaRisk则采用深度学习、强化学习、Model Auto-refit等等各种先进的方法。

他指出,自学习、自适应,是第五代风控引擎与之前所有系统的最大差异。

如果把智能风控系统的技术进化,看作一个孩子的成长,「幼年」的他学会了躲开一个方向来的石头,「少年」的他就要自己学着应对以前从未出现过的攻击方向,甚至还会学着把石头扔回去。

因此,在第五代系统出现以前的双十一,往往需要调整几千条规则,上百个模型,提前几个月开始准备,操作风险也很高。

但到了AlphaRisk时期,平台可以做到模式一键切换,并且随着业务和风险的变化,实时调整风控策略。他笑言,“现在同学们戏称,可以喝着咖啡度过双十一。”

现在的AlphaRisk,内部由风险感知、风险识别、智能进化和自动驾驶四大功能模块组成,能通过数据分析、数据挖掘进行机器学习,自动更新完善风险监控策略。

赵闻飙在发布会上介绍称,在风险感知模块中,AlphaRisk通过多维数据采集和分析,7*24小时实时感知外围风险,全网感知黑产的存在。

风险智能识别模块则应用了DNN、LSTM、迁移学习、强化学习等算法对风险进行全面有效识别,许多算法在风控领域都是全球首次落地。

智能进化模块中,通过Online Learning和Model Auto-Refit实现风控系统的自适应和自学习,在线模型自动更新,风控引擎及时响应变化,大大提升风险应对速度。

自动驾驶(AutoPilot)功能也是最令人惊喜的部分,这一模块基于风险场景和用户状态智能推荐管控策略,针对不同用户分群、交易场景、风险高低, AI算法实现“一键推荐”,帮助风险控制从千人一面向千人千面的转换,自动达成安全与体验平衡的最优风控策略。

例如线下支付场景,如果风控引擎识别到支付宝账户存在手机丢失风险,那么短信校验显然是一种无效的核身方式,AutoPilot能够自动升级核身方式,输出人脸或指纹校验,保障风险控制万无一失。

用赵闻飙的话来说,AlphaRisk就像是一辆无人驾驶汽车,基于这四大模块,该系统在安全风控的「车道」上实现了0人工干预、自适应1秒内完成风险策略模式切换、25万+笔/秒峰值风险扫描以及1天内完成风控模型的更新。

以攻为守,主动风控

而出色的防守,不会只关注怎么把眼前的皮球踢走。

对于C端用户遭遇的网络诈骗风险,支付宝还调教出了一套全链路交互式的主动风控体系

赵闻飙解释称,在欺诈交易还没有成功时,系统会通过智能弹窗唤醒用户的安全心智;如果用户深度受骗,执意支付,系统会推送延迟到账或资金截留,让欺诈者没有办法支取资金。

倘若用户无视支付宝的再三警告,执意付款,一旦他们在事后醒悟过来后,这套风控体系也会提供智能追金的服务,协同警方力量,尽最大可能,保护受骗用户的资金安全。

在支付宝看来,未来风控的趋势必然要从被动防守进化到主动出击,形成交互式风控(Interactive Risk Management),利用对抗学习、强化学习等机器学习方法,主动出击挖掘黑产网络,并且根据法律法规配合监管进行治理和打击。

就像是优秀的防守球员一定会有预判的技能点,对欺诈者的攻击思路和用户的受骗心理都了然于心,在每一个环节都留有后手,还要具备在中前场寻找黑产漏洞、主动发起攻击的能力。

赵闻飙在接受AI金融评论采访时表示,支付宝目前的主动风控方案大致分为两种:

一是主动全网巡检,找出潜在欺诈者的账号进行管控。

二是针对不同的风险类型,利用数据技术进行风险类型定向推送,在事前对用户进行千人千面的个性化安全教育,提升用户心智,防范风险于未然。

他透露,在此次疫情期间,支付宝就针对买卖口罩等防疫物资的骗局对用户进行了定向的安全教育。

有一位网友在求购口罩时,偶然看到骗子发布在网上的售卖消息,随后通过社交软件,联系到了“放钩钓鱼”的骗子。

骗子先是假装口罩紧缺,欲擒故纵,吊起这位网友的急切心理。紧接着,又声称经过多方调控,终于足额找到了网友求购的300个口罩,要价近5000元。

结果就在网友准备转账,骗子即将得手时,支付宝弹出了警示信息:“当前交易存在被骗风险:近期多发购买口罩、酒精等防疫物资不发货骗局,购买防疫物资请走正规平台。”

告别单打独斗,筑B端联防工事

AlphaRisk的风控能力,不止在C端释放。

AI金融评论了解到,目前支付宝安全实验室也已经基于AlphaRisk风控系统研发了ARiskGo,专门给B端商家提供交易安全服务,将风控能力对外输出给合作伙伴。

其中一次,就是与大润发联手打反羊毛党阵地战。

和许多生鲜商超类APP一样,大润发的优鲜APP在2019年5月推出了拉新营销活动,通过新人优惠券的形式吸引用户注册。疑似黑产的羊毛党团伙也很快随之而来,冒充普通消费者恶意下单。

作案手法大同小异,黑产团队不仅在各大平台兜售大润发的优惠券,还大规模租用手机号,注册大量的新用户账号;获取新人优惠之后,再用券购买容易转手的快消商品,例如饮料、大豆油、牛奶、奶粉等。

在咬牙坚持发货的同时,大润发找到ARiskGo团队,基于各自安全的生产环境,借力ARiskGo的智能推荐算法与风控实时计算,在信息加密环境中实现了多方联合计算,最终打磨出适用于新零售行业场景的“营销反作弊”解决方案。

简单来说,防控的第一步就是针对疑似羊毛党的账号,提高注册难度,把问题账号拒之门外。

既然黑产分子会通过各种分身手段,在同一个平台注册多个ID,那么支付宝就会给这些ID划分风险等级。如果被认为是高风险ID,风控系统就会要求通过语音验证码完成注册。

这对正常注册需求的用户来说,只需要听一次验证码,影响微乎其微。但验证方式更换之后,黑产无法再用机器批量注册,作案成本大幅提升。

大润发的产品经理Lee透露,自从2019年6月「大润发优鲜」APP启用了ARiskGo系统之后,已累计保护了超过5000万的运营活动资金,黑产团伙订单占比相较原来高峰时期下降95%以上。

羊毛党在营销拉新活动中作弊的情况,也同样发生在了海外支付应用身上。

“这一度是我们面临的最大挑战。”GCash的风险管理部门负责人Peach这样说道。

作为菲律宾排名第一的移动支付应用,GCash拿下了2000万注册用户和7.5万家商户。为了保住这样的市场份额,GCash也一直在寻找防止欺诈和滥用的解决办法。

蚂蚁金服为GCash提供的电子钱包反欺诈和营销反作弊方案,包含了可支持通过 API 完成实时数据捕获和实时风险咨询的实时决策引擎,支持在保障用户体验的前提下更有效防欺诈的动态核身手段,以及通过应用内的用户验证轻松实现 KYC 的 ZoloZ Real ID 产品。

Peach表示,上述方案的使用,将GCash遭遇的营销作弊情况降到了目前小于1%的水平,账户盗用率和充值渠道欺诈率也随之降低。

GCash风险管理部门负责人Peach讲述合作经过

赵闻飙表示,除了帮助商家抵御羊毛党,支付宝还为服务商们提供了商户智能准入的能力,破解eKYB的世界性行业难题。

2019年,利楚扫呗在自身业务和上游收单机构风控体系的基础上,联合支付宝ARiskGo,搭建了一套可应用于服务商行业、保证商户入网安全的联合风控引擎系统。

尽管利楚扫呗是一家成立近十年的聚合支付服务商,服务着国内67万线下商家,但在这套风控系统上线之前,利楚的拓展商户流程颇为原始,还是以线下人工操作的方式推进:业务BD上门,拿着商户的身份证和执照拍摄录入——确实安全,但时间和人力成本奇高,效率又低。

“经常遇到证照不全、法人不在等各种情况,而且非常容易出错,一个商户甚至要上门好几次才能解决问题。”武汉利楚CEO王朋回忆道。

更重要的是,商户一旦入网,利楚这样的服务商如果要排查风险,只能依赖上游收单机构的反馈信息,无法更早发现风险商户和事件的存在,极大地影响了双方的经营安全。

为此,利楚与ARiskGo共建的风控引擎,在入网审查和经营审查两端都部署了多个方案:

Step1:入网审查方面,采取证照OCR自动识别技术,商户或业务BD用入网工具拍摄上传,即可自动上传,自动识别证照信息,快速入网。

系统会调取接口,自动查询商户的法人身份证和执照信息是否真实,完成线下商户的真实性核验,杜绝PS证件入网以及过期证件入网的可能。

Step2:确认商户真实性后,风控系统查询商户是否在利楚和上游机构的黑名单里,及时拒绝风险商户的引入。

王朋展示了利楚过去一年的风控成绩单:由于商户入网审查机制的成功实施,商户入网效率提升36%,风险商户的入网拦截率提高32%;而多个商户业务审查机制的运行,也实时拦截住了疑似的风险交易和风险商家,风险商户投诉率降低26.8%。

作为一家总部就在武汉的企业,王朋坦言,疫情带来的直接影响、直接变化,他们深有体会。

在防疫的同时,快速甄别商户真实性,提高商户入网效率,有效监控日常交易,帮助商户复工复产、恢复经营,开展高效的营销拉新促活,这些都成为了利楚的当务之急。

“在过去的两个月,我们就为4300家商户搭建了基于支付宝小程序的外卖到家业务,成功恢复了经营,有些商户的营业额还有了明显的提升。现在,我们每天新入网的商户,达到了1500多家。”王朋透露。

多方风控需要怎样的技术战备?

在利楚扫呗与支付宝联手打造的风控引擎中,最引人注意的,是系统的MPC(Multi-party Computation,多方安全计算)技术加持,在安全可信基础上,实现了技术共享、模型共建、风险信息个性化识别。

这套支付宝首创的MPC加密方案建立起完整的多方风控体系,能够在保护用户隐私和商户商业秘密的前提下,实现模型共建、风险共治,实现1+1>2的风险防控效果。

这也正是支付宝多方风控(Multi-Party Risk Management)概念的集中体现。

赵闻飙表示,机构间各自为营,缺乏商户入驻-管理-解约的全生命周期统一管理标准,掌握的信息难以在短时间内互联互通,从而形成一个个信息孤岛,往往带来多头债务和欺诈风险流窜等风险。

高筑的风控信息壁垒,良莠不齐的风控「水位」,必然使得机构间互相拖累。

他强调,未来风控也必须要走向生态共治。正因为过去各家支付机构、银行、互联网企业的风控一直是单打独斗的状态,每一家的数据各有侧重、每一家的能力也各有不同,才会给了黑产可乘之机,找到整个生态最薄弱的环节发起最猛烈的攻击。

目前黑产从系统攻击-提供虚假身份-业务欺诈-资金销赃,已经形成了全链路的产业链,还会实施跨平台犯罪、流窜作案,如果再不联手,想从源头打击、连根拔起黑产会愈加艰难。

要筑起更强大的联合防线,赵闻飙认为,必须加快、加深在MPC、共享智能等领域的研究和应用,把各家的数据、能力联合起来,在保证用户隐私和各家商业秘密的前提下,一起治理风险,不断压缩黑产的存活空间。

多方风控,无疑是大势所趋,这样的趋势再次指向了人工智能发展历程上逃不开的困境:数据隐私和使用性,鱼和熊掌难可兼得。

图灵奖得主姚期智为此提出了经典的「百万富翁」问题,多方安全计算这门技术分支随之诞生。

除此之外,学术界还相继出现了隐私计算、分布式机器学习、可信执行环境(Trusted Execution Environment,TEE)等解决路线,在数据控制、处理或实现方式上各有不同;近两年来,针对小数据和隐私保护的联邦类技术流派也迅速崛起,成为业界关注的热门。

为破除这一AI发展困境,打破数据孤岛,蚂蚁金服早在2016年就已开始投入共享智能这条技术方向。

共享智能意在多方参与且各数据提供方与平台方互不信任的场景下,能够聚合多方信息进行机器学习,并确保各参与方的隐私不被泄漏。

区别于业内不少围绕MPC展开的数据安全方法,共享智能则采用了MPC+TEE双轮驱动战略。赵闻飙向AI金融评论表示,联邦学习要求原始数据不能出域,一定程度上限制了其可以使用的技术方案,对客户也有一定的门槛要求;而蚂蚁的To B风控面向的,有不少是中小微商户,并不能轻易满足高门槛和高成本的技术接入。

因此,共享智能不仅包含有类似联邦学习的、有中心服务器参与计算的模式,也包含完全去中心化的方案,还有基于TEE的共享学习方案,可以结合客户自身的技能能力,选择适配的方案。

 

故事的讲述暂告一段落,但支付宝的安全战事从未停止。在风控安全服务的下半场,安全领域的“命运共同体”渐渐成形,交互式、主动化、全球化的风控局势也更加清晰逼仄地呈现在业界面前。

这是支付宝站在风控安全赛场上的第十五个年头。

这场赛事不会吹哨,没有加时,只会有越来越难缠的对手,和越来越多的队友。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /tXPMbtaDDtMmILL7.html#comments Wed, 13 May 2020 21:00:00 +0800
中国联邦学习「五大流派」 //www.drvow.com/category/DataSecurity /53xFd3j0sgI4p8nK.html 联邦学习作为新一代人工智能基础技术,正在渗透到AI商用瓶颈的根源,通过解决数据隐私与数据孤岛问题,重塑金融、医疗、城市安防等领域。

近两年,在杨强教授等世界级专家的联合推动下,国内外诸多科技巨头,均已开始搭建联邦学习的研究与应用团队。

三年时间过去,国内已经出现联邦学习、共享智能、知识联邦、联邦智能和异步联邦学习等多个相关研究方向。

花开五朵,各表一枝。

今天,雷锋网《AI金融评论》将对这五大方向进行详细梳理,一览国内联邦学习发展现状。

微众银行与联邦学习

联邦学习从某种程度上讲,与微众银行挂上了等号。

联邦学习这一研究分支,正是在微众银行首席人工智能官杨强教授团队和其领导的IEEE联邦学习标准制定委员会的推动下,成为当今全球人工智能产学两界最受关注的领域之一。

今年4月,微众银行人工智能部、电子商务与电子支付国家工程实验室(中国银联)、鹏城实验室、平安科技、腾讯研究院、中国信通院云大所、招商金融科技等多家企业和机构联合推出《联邦学习白皮书V2.0》。

在白皮书中,联邦学习的最新定义是:在进行机器学习的过程中,各参与方可借助其他方数据进行联合建模。各方无需共享数据资源,即数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。

联邦学习也根据数据集用户特征和样本的不同重叠情况,分为了横向联邦学习(即特征重叠较多)、纵向联邦学习(即样本重叠较多)和联邦迁移学习(样本、特征都重叠较少)。

应用实例方面,披露了联邦学习在车险定价、信贷风控、销量预测、视觉安防、辅助诊断、隐私保护广告和自动驾驶方面的解决方案。

2018年,在杨强教授的带领下,微众银行正式开展了联邦学习研究,内部投入百余人,打造了一个覆盖技术上下游的联邦学习团队,包含研究、学术、研发、商业、行业应用等多个细分队伍。

在过往发表的多篇论文中,微众AI团队介绍了联邦学习思路下针对有安全需求的有监督学习、强化学习、决策树的具体方法,包括安全的联邦迁移学习、联邦强化学习以及 SecureBoost 安全树模型。

杨强教授也曾在雷锋网公开课上,以“联邦学习前沿的研究与应用”为题,全面详尽地讲解了联邦学习如何直面数据孤岛和隐私保护的双重挑战。(课程全文与视频回顾,已在公众号《AI金融评论》发布)

微众AI团队透露,他们已申请100+项相关专利,牵头推进IEEE联邦学习国际标准与联邦学习国家标准制定。

2018年10月,微众银行AI团队向IEEE标准协会提交了关于建立联邦学习标准的提案——「Guide forArchitectural Framework and Application of Federated Machine Learning」(联邦学习基础架构与应用标准),并于2018年12月获批。

值得一提的是,微众银行还在2019年2月开源了联邦学习框架FATE,这也是全球首个工业级联邦学习开源框架。业界中主要的联邦学习框架,除了FATE以外,目前还有谷歌开源的TensorFlow Federated,和百度开源的PaddleFL。

之所以称FATE为「工业级」,在于它能够解决包括计算架构可并行、信息交互可审计、接口清晰可扩展在内的三个工业应用常见问题。

FATE项目不仅提供了20多个联邦学习算法组件、比如 LR、GBDT、CNN 等,覆盖常规商业应用场景的建模需求,还特别提供了一站式联邦模型服务解决方案,涵盖联邦特征工程、模型评估、在线推理等。

更重要的是,它给开发者提供了实现联邦学习算法和系统的范本,大部分传统算法都可以经过一定改造适配到联邦学习框架中来。

通过项目开源,对相关机构进行 AI 赋能,提升机构自身的建模技术和能力,为工业界人员快速开发应用提供一种简洁有效的解决方案,支持在多场景下的开拓和应用采用联合共建、平台服务等方式进行解决方案落地。

团队也表示,它具备较强易用性,传统建模知识和经验都可以复用,用户体验上和传统建模差异较小。“所提供的FATE-Board建模可视化功能,极大提升了联邦建模过程的交互体验,也有效缓解建模技术人员的缺乏现状。”

杨强透露称,微众也与VMWare深度合作、深度绑定,推出了KubeFATE系统,帮助用户更好地在Cloud上面进行应用。

目前这一开源框架已在信贷风控、客户权益定价、监管科技等领域推动应用落地。微众银行联邦学习开源平台FATE技术负责人范涛也在雷锋网公开课上,就FATE的实际应用、联邦学习的跨组织多方联合建模等技术重点进行分享。

除了借助开源平台打造技术开放生态,微众AI团队也发起了一个旨在开发和推广安全和用户隐私保护下的 AI 技术及其应用的项目「联邦学习生态」(FedAI Ecosystem)。项目在确保数据安全及用户隐私的前提下,建立基于联邦学习的 AI 技术生态,使得各行业更充分发挥数据价值,推动垂直领域案例落地。

在微众看来,联邦学习不仅具有加速AI创新发展、保障隐私信息和数据安全的公共价值;从商业层面上看,联邦系统更是一个“共同富裕”的策略,能带动跨领域的企业级数据合作,催生基于联合建模的新业态和模式。

蚂蚁金服与共享智能

为了机构与自身信息协同等业务问题,蚂蚁金服从2016年开始投入到共享智能的研究中。在调研了差分隐私、矩阵变换等多种方案之后,蚂蚁金服确定了目前的技术方向。

当前,业界解决隐私泄露和数据滥用的数据共享技术路线主要有两条。一条是基于硬件可信执行环境(TEE:Trusted Execution Environment)技术的可信计算,另一条是基于密码学的多方安全计算(MPC:Multi-party Computation)。

一些基于上述路线的解决方案也随之出现,比如隐私保护机器学习PPML、联邦学习、竞合学习、可信机器学习等,不同解决方案采用的技术路线也相互有所重叠。

蚂蚁金服集团共享智能部总经理周俊在接受InfoQ采访时表示,蚂蚁金服提出的共享智能(又称:共享机器学习)就是结合了TEE与MPC两条路线,同时结合蚂蚁的自身业务场景特性,聚焦于金融行业的应用。

他总结,“共享智能的概念,或者说理念,是希望在多方参与且各数据提供方与平台方互不信任的场景下,能够聚合多方信息进行分析和机器学习,并确保各参与方的隐私不被泄漏,信息不被滥用。”

对于共享智能与联邦学习的差异,周俊指出,联邦学习的架构是由一台中心服务器和多个计算节点构成,中心服务器会参与到整个计算过程,因此不适用于一些不需要中心服务器节点的应用场景。

联邦学习要求原始数据不能出域,这也限制了其可以使用的技术方案;而共享智能是从问题出发,解决方案中不仅包含有类似联邦学习的有中心服务器参与计算的模式,也包含完全去中心化的方案,还有基于TEE的共享学习方案。

蚂蚁的共享智能,可以按照TEE和MPC两条路线来理解。

基于TEE的共享学习,底层使用Intel的SGX技术,并可兼容其它TEE实现,但传统的集群化方案在SGX上无法工作,蚂蚁金服为此设计了全新分布式在线服务基本框架。

在模型训练阶段,除了基于自研的训练框架支持了LR和GBDT的训练外,蚂蚁金服还借助于LibOS Occlum(蚂蚁主导开发,已开源)和自研的分布式组网系统,成功将原生Xgboost移植到SGX内,并支持多方数据融合和分布式训练。目前,蚂蚁金服正在利用这套方案进行TensorFlow框架的迁移。

基于MPC的共享学习框架则分为安全技术层、基础算子层,和安全机器学习算法,已支持包括LR、GBDT、DNN等头部算法,后续一方面会继续根据业务需求补充更多的算法,同时也会为各种算子提供更多的技术实现方案,以应对不同的业务场景。

更多共享智能的技术细节,周俊将会在本周六(9号)晚上八点做客雷锋网公开课,详解数据处理、模型训练预测到推荐/风控等技术突破,并分享共享智能在工业界等真实场景应用案例的落地经验与挑战。

周俊表示,随着技术和用户心智的同步发展,共享智能的大规模落地将会很快发生,而最先受益的,是数据驱动的、并且对隐私保护有强需求的金融科技和医疗科技行业。

目前,蚂蚁金服已经在智能信贷领域的多家机构落地了标杆型业务场景。同时,牵头在推进共享智能的行业标准、联盟标准、国家标准以及IEEE、ITU-T等国际标准。

今年3月,由蚂蚁金服牵头制定的共享智能联盟标准,即《共享学习系统技术要求》,在AIIA联盟(中国人工智能产业发展联盟)正式发布。该标准由蚂蚁金服与中国联通、中国信通院、中国电信、阿里巴巴集团、北京大学、中和农信、百度以及云从科技共同制定。

在国际标准方面上,蚂蚁金服已在HOE、ITOT进行标准的建立;在国内的CCSA(中国通信标准化协会)进行了标准的立项;在AIOSS(中国人工智能开源软件发展联盟)的标准已进入报批稿阶段。

平安科技与联邦智能

联邦学习在平安科技落地生根之后,逐渐形成了以联邦学习为龙头、为核心,依托联邦数据部落,实现具备隐私保护的联邦推理,以联邦激励机制为纽带所形成的AI新生态,也就是联邦智能。研发团队由平安科技副总工程师、联邦学习技术部总经理王健宗带领。

王健宗在做客雷锋网《联邦学习公开课》时介绍称,联邦数据部落是要把每一个数据孤岛部落化,以此纳入联邦合作的体系中来。

首先是对来自个人或企业终端的本地数据进行预处理,其次对训练数据特征化处理,再对联邦数据部落中的数据进行质量评估,这也是形成联邦激励机制评价指标的重要步骤。

联邦数据部落依据数据量级、数据有效性、数据信息密度、数据真实性等评价指标,对参与联邦学习训练的数据进行质量评估。同时也起到了数据监测与评估量化的作用。

联邦推理,则是一个隐私与安全的链路过程,试图让模型在应用环节也能起到保护数据隐私的作用。

他强调,联邦激励机制是一个综合性的闭环学习机制,实际上也融入宏观经济、管理范畴的一些概念。在平安科技的联邦智能生态中,它所表征的是对贡献度与收益的评估机制。

“在数据资产化的背景下,联邦企业所贡献的数据量级如果足够大,且质量好,会直接为联合模型带来效果增益,而这一效果提升也会映射到参与联邦的本地模型上,并为企业带来实际的价值与收益。我们会以此量化这一过程中涉及的贡献度。”王健宗表示。

在联邦智能体系的基础上,平安科技打造了蜂巢平台

平台支持传统的统计学习以及深度学习的模型,比如逻辑回归、线性回归、树模型等。在整个模型训练过程中,对梯度进行非对称加密,整合梯度和参数优化、更新模型。最后加密原始传输数据,实现推理结果。

目前,蜂巢平台的产品定位是服务于营销、获客、定价、风控、智慧城市和智慧医疗。

同盾科技与知识联邦

同盾科技同样是从2018年起着手研发联邦学习,2019年开始搭建知识联邦的雏形,由同盾科技人工智能研究院院长李晓林牵头研发工作。

知识联邦,被定义为统一的安全多方应用框架,它支持安全多方查询、安全多方计算、安全多方学习、安全多方推理等多种联邦应用。本月初,同盾科技也发布了《知识联邦白皮书》,将知识联邦的全貌详细展露。

同盾科技人工智能研究院深度学习首席专家李宏宇表示,知识联邦在借鉴一些相关技术的同时,也具备一定的独创性,尤其是在认知层和知识层联邦都是自主创新的。

以下这张表格也更简单直接地体现了知识联邦与其它技术领域之间的关系:

对于知识联邦与联邦学习的区别和联系,李宏宇指出,联邦学习更关注的是联合建模训练过程,知识联邦关注的是通过联邦创建或应用提取有价值的知识,其联邦的目的可能是建模、预测、计算、推理。知识联邦不仅仅是面向学习,还包括安全的多方计算和知识推理。

因此,在同盾的定义里,联邦学习是知识联邦的一个子集,专注于数据分布的联合建模;知识联邦关注的是安全的数据到知识的全生命周期的知识创造、管理和使用及其监管。

白皮书指出,除了按数据特点、对象类型分类,知识联邦还可以通过联邦阶段进行分类:

  • 信息层通过安全多方计算在密文空间上直接进行计算或学习,进而提取或发现知识;

  • 模型层联邦与传统的联邦学习相似,基于模型加密交互共创知识,并实现知识共享;

  • 认知层对同/异构数据进行认知学习之后进行集成或多模态融合,进而生成复杂的知识网络;

  • 知识层对分布的知识进一步学习提炼,实现基于知识的表达推理及智能决策。

李宏宇在雷锋网《联邦学习公开课》上介绍称,基于知识联邦理论体系,同盾科技推出了工业级应用产品智邦平台(iBond),通过建立相应的任务联盟,解决不同应用场景需求。未来平台也将推进联邦数据安全交换标准的建立。

目前,知识联邦的主要应用场景也集中在金融、保险、政务和医疗等行业。

京东数科与异步联邦学习

联邦学习在京东数科手中,则长成了异步联邦学习这棵大树,构筑成全新的数据协同产业应用生态。目前,异步联邦学习由京东数科AI实验室首席科学家薄列峰、金融科技事业部技术部智能数据负责人王知博等人带队研发。

王知博在接受InfoQ采访时表示,京东数科的联邦学习之路目前已经历以下两个阶段:

第一个阶段,搭建一站式联邦学习建模平台,统一管理数据源与模型全生命周期,降低联邦学习模型开发成本、提高开发效率。

第二个阶段,服务业务落地。目前,联邦学习在信贷风控、智能营销等方向均有一定应用,并在实践中逐步验证效果。

异步联邦学习技术首先在金融场景落地,助力京东数科与合作机构共建大数据风控模型。目前京东数科已经构建行业级的联合建模解决方案。

目前,其联邦学习技术已经在雄安新区“块数据平台”项目中得到了应用,让交通、规划、环保等各个部门打破数据孤岛,更高效地沟通、协同,推动城市“新基建”进入新阶段。

近日,京东数科还宣布成立产业AI中心,继续推动异步联邦学习的发展。

在应用方面,未来重点是深耕金融业务场景,以智能信贷风控为例,需要建立联邦安全联盟,通过合理的生态机制,引入更多的参与方,从而更全面的刻画用户,从而提升模型效果,有效识别信用风险,提升业务收益。

京东数科AI实验室首席科学家薄列峰表示,异步联邦算法在金融领域得到验证后,也在智能城市领域解决了重量级难题。

例如在雄安新区智能城市建设中,为保证全量多模态的城市数据能够实时汇聚、融合、应用,“基于联邦学习的数字网关”技术使得数据不出库的前提下,实现城市各部门数据的融合,这一技术也与异步联邦算法有着异曲同工之处。

联邦学习(微众银行)、知识联邦和联邦智能都已在四月《金融联邦学习公开课》系列,由各自团队的领军人物或研发主力带来分享。

今晚八点,本系列正式启动第二轮,蚂蚁金服将披露共享智能更多技术细节。后续将有来自腾讯CSIG、京东数科、百度、富数科技等企业的技术高管,进一步「拆解」联邦学习。

扫码关注「 AI金融评论 」,进群收看课程直播,和往期课程全部回放。

]]>
风控与安全 //www.drvow.com/category/DataSecurity /53xFd3j0sgI4p8nK.html#comments Sat, 09 May 2020 12:56:00 +0800
微众银行首席AI官杨强:万字图文详谈联邦学习最前沿 //www.drvow.com/category/DataSecurity /QwiDxfL26LI3ncUn.html 近期,微众银行首席人工智能官、香港科技大学讲席教授杨强做客雷锋网AI金融评论公开课,以“联邦学习前沿的研究与应用”为题,全面详尽地讲解了联邦学习如何直面数据孤岛和隐私保护的双重挑战。

关注微信公众号  AI金融评论 ,在公众号聊天框回复“听课”,进群可收看本节课程视频回放。

本文编译:卡卡。以下为杨强演讲全文内容与精选问答:

今天的题目是和金融相关的,先给大家讲一下,为什么在金融行业有特别的需求来保护用户隐私。我希望大家记住一句话:数据不动,模型动。

AI发展困境:小数据与隐私保护

在金融行业,现在大部分的应用都是数据驱动的,却面临非常严峻的挑战。

首先人工智能的力量来自于大数据,但在实际运用过程中碰到更多的都是小数据。比方说法律案例,有人做过统计,案例最多也就收集到上万个。又比如金融反洗钱,因为反洗钱案例是少数的现象,所以每一个案例都非常重要。对于医疗图像,非常好的标注的医疗图像也非常少。所以我们可以发现:周边更多的是小数据,但AI恰恰需要使用大数据。

几个例子:首先是在金融领域,比如信贷风控、市场营销,都需要大量的数据训练。大额贷款风控的案例又非常少。要是来做深度学习模型,只用少量这种大额贷款的样本是远远不够的。

另外一个例子是智慧城市。智慧城市有很多的摄像头,每一个摄像头可以获取的数据其实是有限的,希望聚合不同摄像头的一些数据。但如果它们来自不同的公司,或涉及用户隐私,就无法简单粗暴合并。

大家都知道人工智能的一个未来(应用方向)是无人车,但是每一辆无人车所面临的新的数据却是有限的。如果要更新我们的模型,就需要大量新的数据,它来自于不同的无人车,每个车辆的数据里面肯定是有隐私,同时也是小数据。

又比如网购,像物流系统、供应链系统,有很多的仓储,如果要自动化,就有很多的监控的需求,这种数据往往是小数据,也是分散型的数据,把它聚合起来也不是那么容易。

比如拿手机看新闻,有很多推荐系统,每个手机上面所获取的用户喜好信息,也是小数据,聚合它也面临到用户隐私的问题。

问题是:周边都是小数据,是不是可以把它聚合起来,聚少成多?当然这个是我们最直接的想法,人工智能一开始的发展也是这么来做的,但是现在面临了严峻的挑战。

社会层面,对于隐私和安全的意识越来越强,政府的监管,相关法律法规越来越严。

欧洲首先推出来的法规叫GDPR。它有各种条款,最重要的一条是要保护隐私的数据,保证隐私权是掌握在用户手中。自从它2018年推出来以后,已经有不少的大公司被罚款,比如Facebook和Google。

在美国进展稍微慢一点,但现在加州的法律也跟上来了,叫CCPA。国内也是法律严格化、全面化,各行各业的法律法规都面世了。

联邦学习冲破孤岛,完成数据“拼图”

我们在训练模型过程中希望有海量的大数据,现实却是一个个数据的孤岛。想把数据孤岛连起来,形成一个大数据,却遇到了法律法规的严格限制。

我们面临的两个技术问题,也是我个人研究感兴趣的问题:第一个是如何用迁移学习来解决小数据,这个不在今天的讲座里。今天重点放在右边这个图:数据都是碎的,如果想把碎的数据拼起来,有什么办法?下面就要讲一下我们的解决方案,联邦学习(Federated Learning)。

Federated Learning,说白了想达到这样一种状态:有多个数据源,有多个数据孤岛,每一个数据源的数据都不动,都在本地。但是让这一些具有数据源的拥有方(Owner)能够达成一个协议,使得大家可以联合起来建立一个模型,就是联邦模型。可以有各种各样建立合作模型的方式和算法,但是总目的一样:就是改变以往的做法,让数据在本地不动,通过交换一些模型的信息,让模型成长起来。

这样做需要一些数学工具和计算工具,前者最突出的就是有关隐私保护、加密建模的工具;后者最突出的就是分布式的机器学习。

可能有些同学是第一次听到联邦学习这个名词,我用一个简单的例子来给大家进行解释。

假设用一只羊来类比机器学习模型,我们希望羊吃了草以后能够长大。

过去的做法是,把草买到一起来建立模型。比方说左边的模型,左边的箭头是指向羊的。羊不动,但是草被购买到中心。相当于用简单粗暴的办法来获取数据,形成大数据,来建立模型。

但我们希望能够保护各自的隐私,所以让草不动,让羊动。也就是说,我们带着模型到不同的草场去访问,那么久而久之羊就长大了——这个就是联邦学习的新思路,就是让草不出草场,本地主人无法知道羊吃了哪些草,但是羊还是长大了。

横向联邦学习:样本不同特征同

怎么落地?第一个做法,假设每一个数据拥有方具有不同的样本,但是纵向特征却基本一致。这就相当于我们有那么大的一个大数据的数据集,从横向进行切割,形成了一堆一堆的样本,他们的特征却是类似的。

比如每一个手机都是我们个人在使用,形成了一堆样本。有不同的手机,每个手机基本上取的这些特征都一样,但样本却不同。我们希望在数据不动的情况下,能够聚合这些手机上的数据的这些能力,建立大数据模型。

就像这个图左边所示的数据集们,依次对应右边各终端上面的数据。它们的特征是纵向的,X1、X2、X3是类似的,但样本U1、U2…U10却是不同的。所以这个叫横向切割,按样本切割,简称横向联邦学习。

横向联邦学习,用数学的形式表示它是一个矩阵。一个数据集是左上角,一个数据集是右下角,它们有很大的在特征方面的重叠,但是他们的样本用户却不重叠,可能他们有各自的标签。

左边和右边有各自的标签,但是我们希望利用所有的数据来建模,而不是仅仅靠一个终端上面的数据来建一个小模型,希望把他们聚集起来建立大模型,但是他们的这些数据不能动。

这时候就需要用到横向联盟学习的模型。简单来说,每个终端都和服务器有一个连接,要保证我们跟服务器的沟通,不是数据的沟通,而仅仅是模型参数的沟通。在这里参数是w1、w2直到wk,这些参数在旁边有两个直角括号([ ]),在数学上代表加密,所以在这里用到的是一个加密的数学模型。

这些参数加密以后,把加密的包送给服务器,服务器不懂加密包里面到底有什么,只知道这个是有关参数的加密包。现在有一种技术可以把这种加密包在服务器端进行合起来,合起来的结果会形成一个新的模型,就是上面所示的神经网络模型。这就是第一步到第六步的流程。

在数学上,这样的结合实际上是一种模型的叠加,两个不同的数据集,它建立的两个不同分类模型,一个是线性模型,另外一个可能是KNN模型,这两个模型合起来就会形成一个高维空间的模型。

我们希望在这个建模过程中,每一个数据集都不向服务器端泄露它本身的数据,只是它们的参数在进行沟通。而且参数的沟通也是加密的,这就保证了隐私。

  • 同态加密

细节来说,现在有一种特别好的加密方法,在两个加密包进行聚合的时候,可以不看每一个加密包里面的数据,但我们就把它的包装和他的内核进行调换,这样a的加密加上b的加密,就等于a加b的加密。

打个比方,两个包装好的东西合起来,包装就到外面来了,里面是两个东西的和。这个技术叫做同态加密,在座的同学如果有兴趣,网上现在有大量的资源。国内也有很多专家是在同态加密方面特别有成就。同态加密在过去做不好的一个原因是计算量太大,现在已经发现有很好的解决算法,再加上硬件各方面都有进步,所以同态加密已经不是问题了。

同态加密的效果激发了很多机器学习人的想象力。比如Sigmod曲线,它是非线性,可以用一个线性来近似,近似以后就可以去计算损失函数以及加密结果。同态加密分配律(distribution law)就使得它的总的加密变成每一项的加密之和。

谷歌首先看到了优势,就提出了一个叫Federated Averaging,是一个横向联邦学习的做法。

我们可以想象成一个联邦平均,就是有n个模型,现在要求它们的平均值,但这个事要在服务器端做的时候,我们不希望服务器能够看到每一项它所包含的内容,所以假设手机每一天获取了新的数据以后,我们要更新在手机上面的一些机器学习模型。比方说 next word prediction和人脸识别。我们就可以选择一些手机,用这个办法对它的新数据进行联邦求和,最后就在保护用户隐私的前提下,能够不断更新手机上的数据。

这个已经在Google、在安卓系统得到了应用,现在有众多的手机商,包括我们国内的手机商都非常感兴趣。其他的厂商比如物联网、智能家居的这些公司,如果还没有听说联邦学习的话,他们就会落伍了。

纵向联邦学习:样本重叠特征异

刚才讲的是横向联邦,是按用户来分割,按样本来分割。那有没有这种情况:样本几乎都一样,在不同的数据拥有方,但特征不一样。比如不同机构、公司之间,面临的用户几乎都是一样的,但是他们的特征不一样。

举例来说,视频网站有很多用户的视频喜好,卖书的网店几乎也有同样的用户集,但它们的特征却不一样,这边是有关书的,那边是有关视频的。又比如两个银行,一个银行可能有很多贷款,另外一个银行可能有很多理财,他们的用户群可能也是有很大的重叠。

过去的做法是把数据买过来,然后在一个服务器上加以聚合,现在这个事儿行不通了。我们就思考联邦学习能不能来做这个事儿。

这种联邦是特征不同,但是样本重叠,按照特征竖着来切,所以叫纵向联邦。如图所示,两个机构之间的沟通也是加密的模型参数,而不是数据本身。给到任意两个数据A和B,不一定所有的是样本都重叠。但是如果我们有办法找到足够多的重叠的那一部分,就可以在这一部分上进行建模,用联邦学习来建模。

下面就分成两个问题:

  1. 在不泄露用户本身数据隐私的情况下,不告诉用户和特征值前提下,两个数据拥有方能够共同找到他们所共同拥有的样本。

  2. 在找到这些样本以后,利用这些样本作为训练数据来共同建模。再之后就是如何使用。

如何建模:

纵向联邦的大概思路是,这个模型是A方有一部分的模型,B方有另外一部分的模型。就像战国时代的虎符,一个印被切成两块,只有当这个印是能够完全重叠的时候,才能证明这个将军是得到了真正的国王的命令——左边有模型A,右边有模型B,这两个合起来才能形成联盟来进行共同的推理。

再看细节:首先是有一个墙,这个墙表示数据不能通过墙来交换。左边有机构A,右边有机构B,这两个机构在沟通的时候要非常的小心,只能沟通一些加密后的模型参数。

这个算法用4个步骤在右边这里展开,下面我就先一步一步的来给大家进行讲解。

第一步:如图所示,假设左边这个机构有这么一个用户或者样本的一个集合X,右边也有一个样本的集合Y,在不暴露X和Y的前提下能够找到他们的交集。

第二步:算各自的模型,记住机构A要做一部分的模型,机构B要做另外一部分的模型。首先在机构A先做第一步,把初始参数和每一个样本做一下点积,把这个点积的结果加密,然后把它通过加密算法送给B。

第三步:B得到了这个包,不知道里面有什么,但它可以通过同态加密去更新对样本的计算结果,得到结果以后和真值去比对,就会得到一个损失值,它会把 loss再加密反馈给A。

往往在这个情况下,如果有一个组织者(Coordinator),它会使程序简化,所以 B也可以把这个结果直接给Coordinator。

第四步:Coordinator得到了这个结果以后,再加密这个结果,再加一些噪音,再分发给A和B,让它们各自去更新自己的模型参数,这就使得每一个参与方都不知道对方的数据和特征,同时它可以更新自己的参数。这个流程多次后,A和B的模型就逐渐形成了。

如果有一个新用户过来,就可以通过Party A和Party B各自的参与,通过一个类似的流程来完成——这就是在纵向联邦的前提下,特征不重叠、样本重叠,互相不知道对方样本的前提下,也能够建模。 

总结:所谓横向联邦学习,按横向来切割数据,更多的使用场景在于很多个终端和一个服务器的联邦学习。纵向联邦学习,按特征来切割数据。使用时,大家基本是在同一个位置或者Level,两家公司之间的。

所以说左边横向联邦比较适用于toC,右边纵向联邦对toB比较适用。

特别要说的是,在18年初的时候,我们在微众银行发现,用户隐私的保护是让众多数据拥有方合作时的一个挑战,如何在不同的银行和机构之间联合建模,同时保护数据隐私?我们就发展出了toB的联邦学习。

谷歌的相关研究团队在一直是在安卓系统团队下面,所以他们比较关心横向联邦学习。现在美国和欧洲是横向比较多,在我们国内是纵向比较多。联邦学习现在是双头发展。

  • 第三方能去掉吗?

因为第三方有可能泄露用户隐私,是可以(去掉)的,只不过要多加一些步骤,整体步骤变得比较冗长,但是可以做到,这里不再展开。

  • 联邦学习和区块链像吗?

联邦学习和区块链其实不一样,最重要的区别在于:联邦学习是利用数据的价值,它的一个特点是数据不能够被复制放到别的节点上。区块链是要保证信息的透明和不能篡改性,所以要把数据复制到不同的节点上。虽然最终的目的都是在多方形成共识、形成联合,但是他们确实有所不同。

从数学的角度,从计算机的角度来讲,引入一个多方机制时,要问以下三个问题:

第一问,一致性。现在有多方,那么我按照不同的次序来做事情,我得到的结果是不是一样?我们希望是一样的。对于数据库来说,查询结果一定要一样。联邦学习也是一样的。

第二问,原子性。当有一方挂了,大家是不是可以退到原来的状态。

第三问,虎符性,就是安全性。这对联邦学习是尤其重要的一个特性。但是区块链和这种多方计算、安全计算,以及我们所说的模型计算和数据的这种合作却无关。 

迁移学习:样本、特征无一重叠

刚才讲到要么样本有重叠,要么特征有重叠,但是如果两者都没有重叠,这个时候就要请出迁移学习。

迁移学习的思路是,假设两个数据集的样本和特征几乎都没有交集,我可以在他们的子空间里面找到有重叠的地方。怎么找?这就是通过同态加密和刚才所说的分布式交互机制。找到以后,就可以在子空间里面进行横向联邦或者纵向联邦了。

  • 多方参与下如何识别恶意中心和节点

坏人是怎么混进来的?比方说做OCR(手写识别),我们让计算机识别0。如果不做加密,我们没有一个机制,这种所谓的对抗是可以做到的,坏人是可以通过参数或者一系列梯度的泄露可以反猜原始数据。

因此数学家们就琢磨各种办法,来对坏人分类。

其中诚实(Honest)就是好人;半诚实(Honest-but-curious)就是好奇,但本身不坏。还有人是恶意的,想搞破坏,想得到用户隐私,然后获利。

对于不同的假设,可以设计不同的联邦学习算法和多方计算算法,还可以做零知识(Zero knowledge)和一些知识(Some knowledge)分类。服务器端也可以区分是不是恶意中心、恶意的数据节点和非恶意的数据节点。

比方说有一个手机,专门想设计一些虚假的数据,以此来控制整个服务器端的平均模型。怎么防止这个现象发生?这些问题在之后的系列公开课中会涉及,这些工作现在都是在进行当中的,大家可以去网上搜。

安全策略方面,有两个特别的例子,大家在网上都可以找到。一个叫做模型攻击,它通过对模型的参数动手脚来控制整个联邦模型。还有一种是对数据攻击,它参与到联邦计算里面,使得它对联邦模型的控制取得决定性的作用,这些都有文章和解决方案。

另外,怎么样能够持续鼓励这些不同的数据拥有方,持续参与到联邦建模里面来,使得每个人都不断的获得收益,同时使得集体的收益最大化?这是博弈论和经济学、模型应该做的事情,也有很多工作在开展这方面的研究。 

联邦推荐系统

在推荐系统和联邦学习的这种交集也可以产生,比方说两个数据方,推荐电影和推荐图书的,他们两个在商业上可能没有竞争,所以它们决定合作,但是又不想把隐私泄露给对方,他们就可以用以下的办法来做联邦学习:

ABC不同的数据拥有方,可以通过矩阵分解的办法,把每一方所拥有的用户数据看成是一些子矩阵的乘积,用线性代数形成这样一个子矩阵的乘积,这三个不同的用户就分解成三个用户的特征向量乘以一个图书的特征向量的矩阵,这些向量的计算就是我们通过联邦学习希望能够计算出来的。具体到怎么计算,这里有一个算法,看上去比较新颖和复杂,可能会把大家搞晕。

简单说一下大概做法:

每一个数据拥有方,首先对自己的数据进行矩阵分解,然后再把里面的一部分参数,比如刚才所说的图书的本征向量进行加密,运到服务器端,就可以把这些不同的向量,通过横向联邦学习进行同态平均起来,然后再把平均的更新值再分发给不同的用户端。通过这样的一个做法,就可以做到在 Federated Averageing的框架下,做到矩阵的更新。

现在我们也可以推广到纵向推荐系统,就是他们的用户有很大重叠,但特征却没有重叠。微众银行现在推出了第一个用联邦学习、联邦推荐做的广告系统,所以叫做联邦广告。这个广告系统可以不知道用户的隐私,也可以不确切知道媒体的隐私。

联邦学习的多场景应用范例

  • 银行风控

因为我们希望得到的是大数据,也就是说数据来自不同的角度,比方说对用户贷款进行风险管理,需要财务、舆情、司法、税务、行政等等很多这样的数据,他们都是在不同的数据拥有方里面,我们希望是把它们形成一个联邦的联盟来共同建模。比如一个合作企业和一个银行,这是纵向联邦,因为用户有足够大的重叠,但是他们的特征却不一样,用刚才所说的那些算法做出来的效果,就提升了不少,在这里对应的就是贷款不良率的大幅下降。

  • 保险业合作

我们现在跟一个瑞士的再保险公司就有深度的合作,所谓再保险就是对保险公司的保险,你可以想象在再保险公司下面有一大堆保险公司,这些保险公司既是竞争又是合作的关系,它们之间的合作就需要用到联邦学习。

可以通过纵向联邦,也可以通过横向联邦,还可以通过纵向和横向联邦的某种结合,变成小范围的横向联邦、大范围的纵向联邦。有各种各样非常有趣的结构,也取得了非常好的效果。

  • 计算机视觉

假设不同的计算机图像来自不同的公司,他们之间是有这种意愿去合作的。可以想象一个横向联邦学习系统,因为他们的图像样本不一样,但特征几乎都是相同,都是像素,所以可以用在智慧制造、安防、城市这些领域,现在也正在应用当中。

以我们跟极视角的合作为例,他的一个业务是帮助建筑公司去监控建筑工地的安全,这里有很多建筑公司本身的隐私,不想向其他的建筑公司去透露,但是他们每一家的数据又是有限的,通过联邦学习能够把总的模型建立起来分发给他们,能够满足他们安全施工的要求。

  • 语音识别

语音系统可能是来自不同的录音,比方说有的是服务中心的录音,有的是手机上的录音,有的是别的公司的录音,那么每一家的录音可能都是不同的这个角度来观察这些用户。有没有办法把这些录音给聚集起来,在不移动那些数据的前提下,建立一个总的模型,利用不同录音、语言、数据集的录音来训练我们的联邦模型?

  • 无人车

实验室环境里的无人车,得到的数据是有限的,但是假设满大街的无人车,每一辆每时每刻都在获取新的数据。有没有办法不暴露每个无人车上具体的数据,同时把它聚集起来,能够形成一个联邦模型?具体做法是联邦学习加上强化学习,就是强化联邦学习。

  • 供应链金融

里面有很多仓库的管理和监控,就用到刚才所说的计算机视觉和联邦学习的这种沟通。上下游的关系,库存的预测,是供应链里面的难题,也可以通过这种联邦学习来更好地解决。

联邦学习生态构建进行时

畅想一下,未来有了联邦学习这样的技术,有了像GDPR还有用户隐私这样的监管要求,五年十年以后,我们的社会会发展成为一种什么样的形式?我也相信我们会到这样的一个社会节点上,有很多的联盟会形成,这就是生态。

有很多不同的公司自愿的组织起来,通过联邦学习,在没有顾虑的前提下能够自由合作,联邦学习的激励机制可以公平地让这种生态不断存活下去,越来越大,像雪球一样地扩大。它可以防止数据垄断,让拥有小数据的公司也可以活下去——我们所说的人工智能的社会性,这是真正能做到Ethical AI的一项技术。

Federated Learning这个词出现以后,我们就一直在想把这个词翻译成中文。我们考虑到,每一个数据拥有方就像一个“邦”,他们之间的关系,就像一个邦交。他们可能还有一个Coordinator,或者是他们共同有这么一个模型,大家在共同使用,这就像是大家所共有的一个服务方,就是一个“联邦”。

同时我们也领头建立了第一个IEEE标准,这个标准的制定现在还没完全结束,现在已经进入了最后关头。有众多的著名公司都参与到了这个标准里。当这个标准出现了以后,就会是世界上第一个国际的联邦学习标准,大家以后通过联邦学习合作的时候,就可以根据这个标准来进行,有一个共同的语言来交互。同时我们也在积极推动国内的各种标准,包括团体标准和国家标准。

  • 联邦学习开源项目FATE

假设我们做了一个联邦学习平台,用户会对平台的安全性有所疑虑,会担心存在后门。最好的办法是公开、开源,大家可以看到每一行代码,可以放心去用。我们从一开始就认为联邦学习的技术推动,离不开开源。所以我们开源了世界上第一个关于联邦学习的开源项目,被Linux foundation列为金牌项目,就是FATE系统。

这是一个工业级别的联邦学习,已经支持我刚才所说的横向联邦、纵向联邦、联邦迁移学习、联邦强化学习和联盟推荐。现在有新的版本支持异构计算,支持各种各样的联邦学习,并且我们跟VMWare深度合作、深度绑定,推出了一个系统,叫做KubeFATE的系统,帮助用户更好地在Cloud上面进行应用。

联邦学习还有什么值得研究?这里面还有太多事可以做了,比方说如何能够做到安全合规、防御攻击、提升算法效率、提升系统架构,如何做更多的技术应用,做很好的联盟机制、激励机制去鼓励大家。所以在各个方面我们只是开了个头,后面还有大量的工作是需要做的。

互动问答精选

问:联邦学习和分布式机器学习最能区分的点是什么?

杨强:首先是数据分布特点。分布式机器学习中数据一般被均匀(iid)的分布至各参与计算节点,目标是通过并行计算提升效率。联邦学习中数据天然的存在于不同领域、机构的数据孤岛中,数据分布差异大,不均匀(Non-iid)。另外分布式学习更关注效率,往往在数据中心进行,数据拥有方是同一个体。联邦学习更关注安全,数据拥有方是多个个体。

问:现在有公司在做区块链跟MPC(例如联邦学习,同态加密)的结合,您怎么看?

杨强:区块链与联邦学习可以很好的结合互补。联邦学习可以用区块链的分布式记账等功能实现参与各方价值互换和有效激励,也可以用区块链去中心化的属性来实现参与联邦学习计算的中心节点的替代。区块链与联邦学习不同, 区块链把数据重复复制在各个节点实现共识机制,所有上链数据是公开的,而参与联邦学习的各方数据不同且是私密的。

问:联邦学习训练后的模型是一个公共的模型,而各个客户端的数据经常是Non-iid的,不知老师对此有何见解?

杨强:(横向)联邦学习的效果提升主要来源于各方样本量的聚合,训练的目标是得到一个在所有参与方数据上都适用的有泛化能力的模型。各方数据分布Non-idd的情况可以通过联邦学习加元学习、多任务学习来解决。

问:请问如何保证各个部分数据的质量?比如说医疗影像数据标注的质量参差不齐。

杨强:在实际生产上,可以通过在各方节点上部署检验机制的方法来为参与训练的样本的数据质量进行阈值淘汰,也可以通过结合一些机器学习技术,比如GAN,来模拟生成训练样本进行检验。另外训练时多采用cross-validation等数据验证方法也可以有效控制数据质量问题。

问:联邦学习中,不同数据孤岛在联邦学习过程中是否有隐含权重(即算法模型中本身没有设计权重,但实际学习中形成了不同权重),如何解决?

杨强:联邦学习算法本身按数据量的大小来分配权重,假设数据是分布均匀的。实际上,也可以通过分析数据源与目标数据源的相似性等方法来设计权重。

问:FATE框架和Tensorflow Federated Framework框架各有什么优缺点?

杨强:FATE框架是第一个工业级FL框架,从业界应用出发,支持横向、纵向和迁移联邦学习等学习框架和各种安全计算组件。TensorflowTF目前只支持横向联邦,多适用于学术研究,相对简洁,容易上手。

问:联邦学习对RPA部署及数据中台部署的影响?

杨强:联邦学习可以作为RPA中采用AI技术的一个组件。RPA多面临非标性、数据分隔等挑战,RPA部署系统可以通过联邦学习的方式提高产品效果。

问:请问联邦学习如何应用到教育大数据领域?

杨强:联邦学习可以帮助实现定制化教育。教育机构可以基于存储在学生个人移动设备(如智能手机和笔记本电脑)中的数据,协作地构建一个通用学习计划模型。在此模型基础上,还可根据每一个学生的特长、需求、技能和兴趣,构建定制化、个性化的学习指导模型。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /QwiDxfL26LI3ncUn.html#comments Thu, 23 Apr 2020 14:58:00 +0800
联邦学习诞生1000天的真实现状丨万字长文 //www.drvow.com/category/DataSecurity /rfPSGIjbS38DqTsm.html

联邦学习,无疑是当前最受工业界和学术界关注的人工智能研究方向之一。

近两年,在杨强教授等世界级专家的联合推动下,国内外多数科技巨头,均已开始搭建联邦学习的研究与应用团队。

基于此,雷锋网《AI金融评论》与《AI科技评论》联合邀请五位顶尖联邦学习专家,启动《金融联邦学习公开课》。其中在昨日的首节公开课上,微众银行首席AI官杨强教授分享了《联邦学习前沿与应用价值讨论》。(课程全文与视频回顾,将在公众号《AI金融评论》发布)

今天,我们先来完整回顾下联邦学习诞生三年来,从“自给自足”的To C模式,到企业之间互联互通的To B模式,再到金融、医疗、安防等全场景应用的过程。

联邦学习的诞生:一个有趣的To C设想

联邦学习的概念,首次提出是在2017年的一篇Google AI Blog博文。

文章作者之一是Blaise Aguëray Arcas,他2014年加入谷歌,此前在微软任杰出工程师。加入谷歌后,Blaise领导了谷歌设备端on-device机器智能(Machine Intelligence)项目,同时负责基础研究与新产品研发工作。

在他加入谷歌后不久,便开始了联邦学习的研究。直到2017年,当他们取得了一定的成果,才在博文中进行公布。

  • 设备上的联邦学习

Blaise 等人(或许也在某种程度上代表谷歌)所关注的,更多是设备上的联邦学习——这也正是联邦学习概念被提出之初的应用场景。

由于神经网络仍然受到学习效率的限制,它需要大量的数据进行训练,所以一些大公司,如谷歌、微软、亚马逊等开始提供人工智能服务时需要收集大量的数据,才能去训练大型神经网络。这也是一直以来,整个社区所做的事情。

对于设备端(例如手机)的智能应用,通常情况下的模式是,用户在设备上产生的数据会被上传到服务器中,然后由部署在服务器上的神经网络模型根据收集到的大量数据进行训练得到一个模型,服务商根据这个模型来为用户提供服务。随着用户设备端数据的不断更新并上传到服务器,服务器将根据这些更新数据来更新模型。很明显这是一种集中式的模型训练方法。

然而这种方式存在几个问题:1)无法保证用户的数据隐私,用户使用设备过程中产生的所有数据都将被服务商所收集;2)难以克服网络延迟所造成的卡顿,这在需要实时性的服务(例如输入法)中尤其明显。

Blaise等人便想,是否可以通过做一个大型的分布式的神经网络模型训练框架,让用户数据不出本地(在自己的设备中进行训练)的同时也能获得相同的服务体验。

解决之道便是:上传权重,而非数据。

我们知道神经网络模型是由不同层的神经元之间连接构成的,层与层之间的连接则是通过权重实现的,这些权重决定了神经网络能够做什么:一些权重是用来区分猫和狗的;另一组则可以区分桌子和椅子。从视觉识别到音频处理都是由权重来决定的。神经网络模型的训练本质上就是在训练这些权重。

那么Blaise提出的设备端联邦学习,不再是让用户把数据发送到服务器,然后在服务器上进行模型训练,而是用户本地训练,加密上传训练模型(权重),服务器端会综合成千上万的用户模型后再反馈给用户模型改进方案。

这里或许值得强调,这种在设备端上的模型是经压缩过的,而非像服务器中那种大型神经网络模型。因此模型训练的耗能是非常小的,几乎检测不到。

此外,Blaise讲了一个非常形象的比喻,即人会在睡觉的时候通过做梦来更新自己的大脑认知系统;同样设备终端的系统也可以通过闲置时进行模型训练和更新。所以整体上,这并不会对用户的使用体验造成任何影响。

总结一下设备上联邦学习的过程

  1. 设备端下载当前版本的模型;

  2. 通过学习本地数据来改进模型;

  3. 把对模型的改进,概括成一个比较小的更新;

  4. 该更新被加密发送到云端;

  5. 与其他用户的更新即时整合,作为对共享模型的改进。

整个过程有三个关键环节

  1. 根据用户使用情况,每台手机在本地对模型进行个性化改进;

  2. 形成一个整体的模型修改方案;

  3. 应用于共享的模型。该过程会不断循环。

其优点显而易见:

首先,数据可以不上传云端,服务提供商看不到用户数据,这能提高用户数据隐私性。因此也就不必在隐私和功能之间权衡,可以两者兼有。这一点在当下数据隐私越来越受到重视的情况下特别重要。

其次,延时降低。如果将用户所有数据都上传到云端,且服务本身也是从云端进行反馈,那么在网速较慢的环境下,网络延时将会极大降低用户体验。而联邦学习加持下的服务则不会出现这种情况,因为服务本身就来自于本地。

同时,联邦学习的出现,也使得用户从人工智能的旁观者,真正转变为人工智能发展的参与者。

To B人工智能的困局:隐私保护、小数据、数据孤岛

其实Google的联邦学习,并没有解决企业之间数据孤岛问题。

Google的方案可以理解为To C的,应用在用户的手机端,是同一家公司根据内部对To C业务的需求所产生的一套用以解决数据隐私问题的方案。

而杨强教授牵头建设的联邦学习生态更多是To B模式,用以解决企业与企业之间的数据孤岛难题,是一个更开放的类似企业联盟的生态。

总体而言,Google的联邦学习方案是横向的,它使用的数据特征相同,因此只需要建同一个模型。

而新方案则是纵向联邦学习,不同企业之间的数据特征往往不同,所以即便面向的用户是相同的场景,整个技术方案和实施框架也不一样。

杨强教授曾在雷锋网承办的CCF-GAIR 2019「AI 金融专场」的大会报告中指出,利益驱使下,各家公司们过去并不愿意把数据拿出来和其他公司交换。除了少数几家拥有海量用户、具备产品和服务优势的「巨无霸」公司外,大多数企业难以以一种合理合法的方式跨越人工智能落地的数据鸿沟,或者对于他们来说需要付出巨大的成本来解决这一问题。

此外,监管当局已经采取颇为严格的隐私保护措施。

去年5月份欧洲首先提出数据隐私保护法GDPR,对人工智能机器的使用、数据的使用和数据确权,都提出非常严格的要求,以至于Google被多次罚款,每次金额都在几千万欧元左右。

因为GDPR其中一则条文就是数据使用不能偏离用户签的协议,也许用户的大数据分析,可以用作提高产品使用体验,但是如果公司拿这些数据训练对话系统,就违反了协议。如果公司要拿这些数据做另外的事,甚至拿这些数据和别人交换,前提必须是一定要获得用户的同意。

另外还有一些严格的要求,包括可遗忘权,就是说用户有一天不希望自己的数据用在你的模型里了,那他就有权告诉公司,公司有责任把该用户的数据从模型里拿出来。这种要求不仅在欧洲,在美国加州也实行了非常严格的类似的数据保护法。

中国对数据隐私和保护也进行了非常细致的研究,从2009年到2019年有一系列动作,而且越来越严格,经过长期的讨论和民众的交互,可能近期会有一系列正式的法律出台。

其次,我们的数据大部分是小数据:没有好的模型就无法做到好的自动化,好的模型往往需要好的大数据,但往往高质量、有标签的数据都是小数据。

而且数据都在变化,每个阶段的数据和上一个阶段的数据有不同的分布,也许特征也会有不同。实时标注这些数据想形成好的训练数据又需要花费很多人力。

当前,大多数应用领域均存在数据有限且质量较差的问题,在某些专业性很强的细分领域(如医疗诊断)更是难以获得足以支撑人工智能技术实现的标注数据。

三是“对抗学习”的挑战。即针对人工智能应用的作假,比如人脸识别就可以做假,针对面部进行合成。如何应对这种“对抗学习”的挑战,这是金融场景下人工智能安全领域的重大题目。

不仅金融场景,在法律场景也是这样,医疗场景更是如此。每个医院的数据集都是有限的,如果不能把这些数据打通,每个数据集就只能做简单的模型,也不能达到人类医生所要求的高质量的疾病识别。

在这样的困境中,不少人觉得人工智能的冬天也许又一次到来了——但在联邦学习研究者看来,这正是一次技术跃迁的良机。

联邦学习:横向、纵向、迁移

杨强这样形容联邦学习的精髓:

我们每个人的大脑里都有数据,当两个人在一起做作业或者一起写书的时候,我们并没有把两个脑袋物理性合在一起,而是两个人用语言交流。所以我们写书的时候,一个人写一部分,通过语言的交流最后把合作的文章或者书写出来。

我们交流的是参数,在交流参数的过程中有没有办法保护我们大脑里的隐私呢?是有办法的,这个办法是让不同的机构互相之间传递加密后的参数,以建立共享的模型,数据可以不出本地。

从简单定义来讲,联邦学习是在本地把本地数据建一个模型,再把这个模型的关键参数加密,这种数据加密传到云端也没有办法解密,因为他得到的是一个加密数据包,云端把几千万的包用一个算法加以聚合,来更新现有的模型,然后再把更新后的模型下传。重要的是,整个过程中Server云端不知道每个包里装的内容。

之前这种做法比较困难,但同态加密的出现让运算效率取得了重大提升,即加密算法可以隔着加密层去进行运算。不过需要注意的是这只是2C的例子,是云端面对大用户群的例子。

它可以把多项式的加密,分解成每项加密的多项式,A+B的加密,变成A的加密加B的加密,这是非常伟大的贡献。因为这样就使得我们可以拿一个算法,在外面把算法给全部加密,加密的一层可以渗透到里面的每个单元。能做到这一点就能改变现有的机器学习的教科书,把任何算法变成加密的算法。

对于横向、纵向和迁移联邦学习,杨强给出了如下解释:

  • 横向联邦学习

横向联邦学习是每行过来都可以看作一个用户的数据。按照用户来分,可以看作一、二、三个手机,它叫横向学习。还有一个原因是它们的纵向都是特征,比如手机型号、手机使用时间、电池以及人的位置等,这些都是特征。他们的特征都是一样的,样本都是不一样的,这是横向联邦学习。

主要做法是首先把信用评级得到,然后在加密状态下做聚合,这种聚合里面不是简单的加,而是很复杂的加,然后把征信模型再分发下来。

  • 纵向联邦学习

大家的Feature不一样,一个机构红色、一个机构蓝色,大家可以想象两个医院,一个病人在红色医院做一些检测,在蓝色的医院做另外一些检测,当我们知道这两个医院有同样一群病人,他们不愿意直接交换数据的情况下,有没有办法联合建模?

它们中间有一个部门墙,我们可以在两边各自建一个深度学习模型,建模的时候关键的一步是梯度下降,梯度下降我们需要知道几个参数,上一轮参数、Loss(gradients)来搭配下一个模型的weight参数。

这个过程中我们需要得到全部模型的参数级,这时候需要进行交换,交换的时候可以通过同态加密的算法,也可以通过secure multiparty computation,这里面有一系列的算法,两边交换加密参数,对方进行更新,再次交换参数,一直到系统覆盖。

  • 迁移联邦学习

它们在特征上一样,或者在特征上不一样,但是他们的用户有些是有交集的,当用户和特征没有交集时,我们退一步想,我们可以把他们所在的空间进行降维或者升维,把他们带到另外的空间去。

在另外的空间可以发现他们的子空间是有交互的,这些子空间的交互就可以进行迁移学习。虽然他们没有直接的特征和用户的重合,我们还是可以找到共性进行迁移学习。

总的来说,联邦学习的这种思想,事实上并不仅仅适用于设备用户数据的隐私保护和模型更新。

我们将设备用户抽象来看,视作数据的拥有者,可以是手机持有者,也可以是公司、医院、银行等;而服务器或云端视作模型共享综合平台。

作为一种新的学习范式,联邦学习具有以下特点:

  • 在联邦学习的框架下,各参与者地位对等,能够实现公平合作;

  • 数据保留在本地,避免数据泄露,满足用户隐私保护和数据安全的需求;

  • 能够保证参与各方在保持独立性的情况下,进行信息与模型参数的加密交换,并同时获得成长;

  • 建模效果与传统深度学习算法建模效果相差不大;

  • 联邦学习是一个「闭环」的学习机制,模型效果取决于数据提供方的贡献。

这样一个直接命中人工智能发展痛点的新技术,也开始进入到各大应用场景当中。

联邦学习与金融信贷风控

在众多金融业务环节中,饱受数据隐私和孤岛效应困扰的信贷风控,无疑是实现联邦学习落地的最佳场景之一。

微众银行联邦学习团队指出,基于联邦学习的信贷风控解决方案,能够“在建模过程中,双方交换梯度值,类似于方向向量的概念,交换的是中间变量,不是原始数据。同时对这个中间变量还进行了同态加密,所以数据并不会出库,保证数据源和应用方的数据安全。”

联邦学习所采用的局部数据收集和最小化原则,将降低传统中心化机器学习方法带来的一些系统性隐私风险和成本,这样的效果也正契合了信贷风控的提升方向。

总的来说,这一做法是试图通过联邦数据网络进行信贷风控增强,在贷前环节利用更丰富的数据信息综合判断客户风险,帮助信贷公司过滤信贷黑名单或明显没有转化的贷款客户,进一步降低贷款审批流程后期的信审成本。

在贷中,采用联邦学习的解决方案主要提供根据用户放款后的行为变化进行的风险评估产品,帮助放贷机构进行调额调价的辅助决策。

对于贷后风险处置,方案则提供可以根据客户的行为进行催收预测的产品,帮助放贷机构进行催收的策略评估,调整催收策略,提升催收效率。

微众联邦学习团队表示,在具体实施上,解决方案会先行使用联邦学习云服务进行业务冷启动,并通过建立业务及AI模型闭环,小样本建模,后期持续迭代优化模型的方式,实现项目数字化,便于消费金融业务方及信贷合作方能够持续积累业务数据优化联邦模型。

以微众银行与合作伙伴公司的情况为例,微众的特点是有很多用户Y,数据集可分为X和Y,X是用户的特征和行为,Y是最后的结论,我们在银行的结论是信用逾期是否发生,这是逾期概率,合作的伙伴企业可能是互联网企业或者是卖车的或者卖保险,不一定有结论数据Y,但是它有很多行为信息X。

现在这两个领域对于同一批用户如果要建模,属于纵向联邦学习,建立纵向联邦学习的应用,最后就取得了很好的效果,AUC指标大为上升,不良率大为下降。

通过合法合规的多维度联邦数据建模,风控模型效果约可提升12%,相关企业机构有效节约了信贷审核成本,整体成本预计下降5%-10%,并因数据样本量的提升和丰富,风控能力进一步增强。

对合作方信贷机构而言,信贷风控能力也大幅度提升。

通过初审筛选掉黑名单和不可能转化贷款客户,在“信审漏斗第一步”减去无效客户,从而在信贷预审阶段使单接口调用成本预计节省20-30%,有效控制了信贷审核成本。

联邦学习与医疗AI

作为医疗AI成长道路不可或缺的“粮食”,数据一直是医疗AI落地的“拦路虎”。

医疗健康数据领域长期存在“信息孤岛”问题,不同地区甚至不同医院间的医疗数据没有互联,也没有统一的标准。与此同时,数据安全问题也存在着巨大挑战。

就在昨日,腾讯天衍实验室公开宣布,其联合微众银行研发的医疗联邦学习,在脑卒中预测的应用上,准确率在相关数据集中高达80%。

联邦学习可以绕过医疗机构之间的信息壁垒,不考虑将各自数据做合并,而是通过协议在其间传递加密之后的信息,该加密过程具有一定的隐私保护机制,保证加密后的信息不会产生数据泄露。各个医疗机构通过使用这些加密的信息更新模型参数,从而实现在不暴露原始数据的条件下使用全部患者数据的训练过程。

举例来说,假设医院 A 和 B 想联合训练一个脑卒中疾病预测模型,两个医院各自掌握科研病例数据,此外,医院 B 还拥有模型需要预测的标签数据如脑卒中发病标签。出于数据隐私保护和安全考虑,医院A和 B无法直接进行数据交换。联邦学习系统则可以利用基于加密的患者样本对齐技术,在医院 A 和 B 不公开各自数据的前提下确认双方的共有患者,并且不暴露不互相重叠的患者,以便联合这些用户的特征进行建模,在确定共有用户群体后,就可以利用这些数据训练疾病预测模型。

在这样的一种方式下,联邦学习技术就实现了保护不同医院数据隐私的疾病预测模型,而这项技术也在疾病预测领域落地,天衍实验室和微众银行成功构建了一个“脑卒中发病风险预测模型”。

通过使用来自就诊记录数量TOP5的医院真实就诊数据验证,联邦学习模型和集中训练模型表现几乎一致,在脑卒中预测模型中的准确率达到80%,仅比集中训练模型准确率降低1%。

同时,联邦学习技术显著提升了不同医院的独立模型效果,特别是,对于两家脑卒中确诊病例数量较少的医院而言,联邦学习分别提升其准确率10%和20%以上。

除疾病预测模型外,双方还会围绕联邦学习在医疗大数据领域的应用落地进行更多维度的合作,包括医保控费、合理诊断、精准医疗等领域,例如通过联邦学习助力电子健康卡实现保护用户隐私建模等等,进而促进医疗健康产业发展,提升医疗服务的质量。

而在2019年医学影像分析顶会MICCAI中,联邦学习在医学影像上的应用正式进入研究者的视野。

英伟达与伦敦国王学院以及一家法国初创公司Owkin合作,在新成立的伦敦医学影像与人工智能中心中应用了联邦学习技术。

由于医疗数据的隐私规定,在集中数据湖中收集和共享患者数据通常是不可行的。这就给训练机器学习算法带来了挑战,例如深度卷积网络通常需要大量不同的训练示例。

联邦学习通过将代码带给患者数据所有者,并且只在他们之间共享中间模型训练的信息,从而避开了这一困难。尽管适当地聚合这些模型可以获得更高精度的模型,但共享的模型可能会间接泄漏本地训练数据。

这项技术论文提出了一个用于脑肿瘤分割的联邦学习系统,探讨了在联邦学习系统中应用微分隐私技术来保护病人数据的可行性。

此次试验是基于取自BraTS 2018数据集的脑肿瘤分割数据实施的,BraTS 2018 数据集包含有285位脑肿瘤患者的MRI扫描结果。

研究人员表示:“联邦学习在无需共享患者数据的情况下,即可实现协作与分散化的神经网络训练。各节点负责训练其自身的本地模型,并定期提交给参数服务器。服务器不断累积并聚合各自的贡献,进而创建一个全局模型,分享给所有节点。”

研究人员进一步解释道,虽然联邦学习可以保证极高的隐私安全性,但通过模型反演,仍可以设法使数据重现。为了帮助提高联邦学习的安全性,研究人员研究试验了使用ε-差分隐私框架的可行性。这个框架是一种正式定义隐私损失的方法,可以借助其强大的隐私保障性来保护患者与机构数据。

NVIDIA团队解释到,联邦学习有望有效聚合各机构从私有数据中本地习得的知识,从而进一步提高深度模型的准确性、稳健性与通用化能力。

英伟达与伦敦国王学院研究人员在MICCAI上介绍了联邦学习技术的更多实施细节:

深度学习神经网络在多种医学应用中都显示出很好的效果,但它高度依赖于训练数据的数量和多样性。在医学成像方面,这构成了一种特殊困难:例如,由于患者数量或病理类型的原因,所需的训练数据可能无法在单个机构中获得。同时,由于医疗数据隐私规定,在集中数据湖中收集和共享患者数据通常是不可行的。

联邦学习则允许在不共享患者数据的情况下对DNN进行合作和分布式训练。每个节点都训练自己的本地模型,并定期将其提交给参数服务器。服务器收集并聚合各个节点模型以生成一个全局模型,然后与所有节点共享。

需要注意的是,训练数据对每个节点都是私有的,在学习过程中不会被共享。只共享模型的可训练权重或更新,从而保持患者数据的私密性。因此,联邦学习简洁地解决了许多数据安全挑战,将数据放在需要的地方,并支持多机构协作。

论文也披露了客户端模型训练过程、服务器端模型聚合过程、部署在客户端的隐私保护模块,以及联邦学习实验项目的配置与实验结果。研究人员表示,未来他们将探索用于医学图像分析任务的微分隐私SGD算法。

联邦学习与安防

安防,是目前计算机视觉变现最快的领域。

宇视科技CEO张鹏国曾在接受雷锋网专访时提到,“当前AI安防落地能力与用户需求存有较大差距,前者还需面对数据隐私保护与安全管控、低成本、流程再造、组织变革等挑战。” 

具体来看,最为核心的痛点是,数据不够多元,且异常封闭。

中国拥有庞大的人口数量、用户量及图像采集点,相关企业得到数据之后经过筛选、过滤、叠加、组合,会对自身算法效果有阶段性提升。

但这类提升属于个人式的、微乎其微式的。

每个安防厂商所建设的AI系统类似一个又一个的“烟囱”,“烟囱式”架构也就是垂直的体系结构。

每一个IT系统都有自己的存储和设备,以及独立的管理工具和数据库,不同的系统不能共享资源、不能交付和访问,形成了资源孤岛和信息孤岛。

由于不同企业的数据库模型设计和针对的目标有所不同,他们也无法直接交换、共享模型。

即便相关企业间的数据库可以融合,但受制于隐私、安全等问题,也绝不可如此为之。

有场景缺数据、有数据难共享。这是包括AI安防在内的诸多行业目前存在的普遍问题,也是阻碍AI普惠的最大痛点。

一方面,AI在安防行业的探索才刚刚开始;另一方面,做好AI所必须的数据养料有限且质量较差,不同数据源之间存在难以打破的壁垒。

除了少数几家拥有海量用户、具备产品和服务优势的巨无霸企业外,大多数中小型AI安防企业难以以一种合理、合法的方式跨越人工智能落地的数据鸿沟,或者需要付出巨大的成本来解决这一问题。

多位学术界、工业界领头人指出:从目前的研究进展来看,“联邦学习”技术可能是解决以上问题的最佳选择。

譬如A厂商有校园数据、B厂商有工厂数据、C厂商有社区数据,且这三家厂商都使用了联邦学习技术。

从业务层面出发,A、B、C这三家厂商便直接获得了两种能力:1、最快速地优化自身业务;2、最快速地拓展新业务。

最快速地优化自身业务表现在,平台每天会有若干个类似A厂商的企业向平台输入加密后的数据模型,而这些数据模型中有A厂商非常缺乏的其他数据信息,而A厂商便可根据这些数据去更新自己的算法模型。

最快速地拓展新业务表现在,A、B、C每家厂商都有各自构建好的模型,通过汇总去得到更大的数据模型,在不流通数据的情况下得到数据流通的最好效果,通过资源互补可以在最短时间内安全地获得对方的能力,去拓展新业务。

从隐私保护层面来看,通常智能摄像头产生的数据会被上传到后台服务器中,然后由部署在服务器上的神经网络模型根据收集到的大量数据进行训练得到一个模型,服务商根据这个模型来为用户提供服务。

这是一种集中式的模型训练方法,这种方式很难保证数据隐私安全。

而联邦学习就不再是让数据发送到后台,而是在每个企业自己的服务器上进行训练,并加密上传训练模型,后台会综合成千上万的用户模型后再反馈给用户改进方案。

其中一个典型应用案例,就是微众银行与极视角联合推出的中国首个视觉联邦学习系统。

以视频摄像头中的火焰识别为例,AI工程师们可能千辛万苦训练了一个火焰检测的识别模型,想要用在监控摄像头中,识别是否有燃烧现象,从而对火灾发生的可能性进行分析,实现火灾预警。

原有的AI算法可以比较准确地识别有明显大面积燃烧和明火发生的常见场景。然而,遇到打火机点出的火焰时,摄像头就有些“懵”了。

如果想让模型增强识别能力,传统的AI训练要求适用方能够提供一些数据样本,而这又出现了因网络带宽导致的算法准确率不高及数据隐私等问题。

图片来源:fedai.org

在联邦视觉系统中,依托本地建模,在保证各方数据不出本地的情况下,即可提升AI算法准确率。

在一次公开分享中,微众银行AI部门副总经理陈天健透露,“在‘联邦视觉系统’项目中,通过联邦学习技术,整体模型的性能提升了15%,且模型效果无损失,极大地提升了建模效率。”

联邦学习的未知之地

信贷风控、医疗和安防的应用,都只是联邦学习赋能各领域的冰山一角。

未来包括金融、医疗、安防、零售、政务、工业等各行各业、各个场景都可以依据此技术实现降本增效、开源节流。

联邦学习的生态建设也在同步进行,只有多方合作、多方认可下的联邦学习才有望实现效益最大化。

如果你也想参与到人工智能学习和落地的最前沿,了解联邦学习的最新研究成果与应用情况,请持续关注杨强教授的公开课全文整理回顾,以及《联邦学习系列公开课》的其他课程。

雷锋网雷锋网雷锋网

]]>
风控与安全 //www.drvow.com/category/DataSecurity /rfPSGIjbS38DqTsm.html#comments Wed, 15 Apr 2020 09:55:00 +0800